Dijitalleşmenin eğitim ortamlarına nüfuz etmesiyle birlikte, ödevlerin toplanması, değerlendirilmesi ve geri bildirimin verilmesi süreçleri büyük ölçüde otomatikleşti. Ancak bu otomasyonun en kritik ve tartışmalı bileşenlerinden biri, intihal tespiti—daha geniş anlamıyla metin, kod veya karma içeriklerde benzerlik ve özgünlük analizi—oldu. Öğrenme yönetim sistemleri (LMS) ile entegre çalışan otomatik ödev kontrol sistemleri, bir yandan akademik dürüstlüğü korumayı hedeflerken öte yandan yanlış pozitif/negatif sonuçlar, çokdilli metinlerdeki çeviri-intihali, yapay zekâ destekli paraphrasing araçları ve kod ödevlerine özgü kopyalama stratejileri gibi zorlu problemlerle mücadele etmek zorunda kalır.
Bu yazı, otomatik ödev kontrol sistemlerinde kullanılan intihal algoritmalarını teknik, etik ve operasyonel boyutlarıyla ayrıntılı biçimde ele alır. Önce temel kavramları ve intihal tipolojilerini tanımlar; ardından metinsel ve kod tabanlı tespit yaklaşımlarının matematiksel/algoritmik altyapısını, veri kümelerini ve değerlendirme ölçütlerini inceler. Sonrasında gerçek dünyadan vaka çalışmaları, ölçeklenebilir mimari tasarımlar ve yapay zekâ destekli savunma/atak senaryoları üzerinden uygulanabilir bir çerçeve önerir. Nihayetinde, şeffaf raporlama, öğrenci mahremiyeti ve pedagojik amaçlarla algoritmik denetimin nasıl dengelenebileceğini tartışır.
1) İntihalin Tanımı, Kapsamı ve Tipolojisi
İntihal, başkalarına ait fikrî ürünleri—metin, kod, görsel, tablo, formül, hatta fikir örgüsü—kaynak göstermeden veya yanıltıcı şekilde atıf yaparak kullanma eylemidir. Ödev kontrol sistemleri açısından bu durum yalnızca birebir kopyalamayı kapsamaz; mozai̇k intihal (farklı kaynaklardan parçaların derlenmesi), paraphrasing-intihal (eşanlamlı dönüşüm, cümle yapılarını yeniden düzenleme), kendinden intihal (önceki ödev/raporların izinsiz yeniden kullanımı), çeviri-intihali (bir dilden diğerine çeviri yapıp kaynak göstermeme) ve yapı intihali (argüman akışının taklidi) gibi formları içerir. Kod ödevleri içinse isim değişiklikleri, beyaz boşluk ve yorum satırı manipülasyonları, kontrol akışı dönüşümleri, fonksiyon dekompozisyon değişimleri gibi “kamuflaj” taktikleri tipiktir.
2) Sistem Mimarisi: Uçtan Uca Akış
Tipik bir otomatik ödev kontrol sistemi aşağıdaki boru hattı üzerinden çalışır:
-
Toplama Katmanı: LMS, e-posta, depolama veya depo yöneticilerinden (Git vb.) belgelerin alınması.
-
Ön-İşleme: Dil tespiti, karakter normalizasyonu, tokenizasyon, cümle/paragraf segmentasyonu; kodlar için sözdizimsel ayrıştırma (AST), biçimlendirme.
-
Özellik Çıkarımı: Metin için n-gram, shingle, minhash; kod için AST alt-ağaçları, token dizileri, CFG özellikleri; stilometri değişkenleri (kelime uzunluğu dağılımı, fonksiyon isim örüntüleri).
-
Benzerlik Hesabı: Jaccard, Cosine, Levenshtein; kod için yapı temelli eşleştirme; semantik benzerlik için embedding tabanlı yaklaşımlar.
-
Karar Verme: Skorun eşiğe göre yorumlanması, belirsizlik bölgelerinde insan değerlendiriciye yönlendirme.
-
Raporlama: Kaynak vurgulama, örtüşme yüzdesi, alıntı/atıf uygunluğu, versiyon/teslim geçmişi.
-
Geri Bildirim ve Öğretimsel Entegrasyon: Öğrenciye yönlendirici, eğitici mesajlar; gerektiğinde revizyon döngüleri.
3) Metinsel Benzerlikte Temel Yaklaşımlar: Shingling ve Jaccard
Shingling, metni sabit uzunlukta (genellikle 5–10 token) “pencere”lere bölerek her pencereyi bir şingle olarak ele alır. İki belgenin şingle kümeleri arasındaki Jaccard benzerliği şu şekilde tanımlanır:
J(A,B)=∣A∩B∣∣A∪B∣
Bu yöntem, basit kopyala-yapıştır vakalarını güçlü biçimde yakalar. Avantajları: ölçeklenebilirlik (minhash ile), dil bağımsızlığına yakınlık (token seviyesinde), uygulanma kolaylığı. Sınırları: paraphrasing altında hassasiyet kaybı, eşik seçimine duyarlılık ve çok uzun belgelerde pozitif eşleşmelerin “kanonik” bölümlere (tanım, ortak cümle kalıpları) kayması.
4) MinHash ve LSH ile Büyük Ölçekli İndeksleme
Devasa kurumsal arşivlerde tüm-tüm karşılaştırma maliyetlidir. MinHash imzaları, Jaccard benzerliğini yaklaşıklar; Locality-Sensitive Hashing (LSH) ise benzer imzalara sahip belgeleri aynı kovalarda kümeler. Böylece karşılaştırma uzayı dramatik biçimde daralır. İş yükünü MapReduce/Spark gibi çerçeveler üstlenebilir. Uygulamada, farklı shingle boyları ve çoklu imza tabloları kullanılarak hem hassasiyet (recall) hem de özgüllük (precision) dengelenir.
5) Edit Mesafeleri ve Dizi Hizalama
Levenshtein veya Damerau-Levenshtein gibi düzenleme mesafeleri, ekleme/silme/değiştirme/yer değiştirme maliyetlerini kullanarak iki dize arasındaki dönüşüm maliyetini ölçer. Paraphrasing’e karşı daha dayanıklı olmak için cümle düzeyinde hizalama (Smith-Waterman gibi yerel hizalama stratejileri) uygulanabilir. Ancak bu yöntemlerin hesaplama maliyeti yüksektir; bu nedenle çoğunlukla LSH gibi filtreleyici ön adımla birlikte kullanılırlar.
6) Paraphrasing-İntihal ve Semantik Yaklaşımlar
Güncel tehditler arasında YZ destekli yeniden yazım (paraphrasing) araçları başı çeker. Bu durumda string düzeyinde benzerlik düşük görünür; oysa anlamsal düzeyde yüksek bir örtüşme vardır. Çözüm için:
-
Dağıtımsal anlamsal modeller (Word2Vec, GloVe) ve cümle/para. embedding’leri (Sentence-BERT, E5, GTR gibi modeller) ile vektör temsil;
-
Transformers tabanlı benzerlik (cosine similarity) ve yakın komşu arama (FAISS, HNSW) ile benzer pasajların hızlı keşfi;
-
Paraphrase identification için ikili sınıflandırıcılar (fine-tuned transformer’lar), kontrastif öğrenme ve rank’leme.
Bu yöntemler, çeviri-intihali gibi dil dönüşümlerine karşı da daha dirençlidir (çokdilli/çapraz dilli embedding’ler, mUSE, LaBSE vb.).
7) Stilometri: Yazar Profili ve Ayak İzleri
Stilometri, bir yazarın dilsel tercihlerini—kelime uzunluğu dağılımı, dizge karmaşıklığı, işlevsel sözcük kullanımı, noktalama örüntüleri, cümle uzunluğu varyansı—nicel olarak ölçer. Bu özelliklerle üretilen bir yazar izi modeli, “benzer içerik ama farklı yazar” anomalilerini saptamaya yardımcı olur. Riskler: gizlilik/etik sorular, domain/dil değişimine duyarlılık ve “stil maskeleme” gibi adversarial stratejiler.
8) Kaynak Evrende Kapsam: Web, Kurumsal Arşiv, Akademik Depolar
Tespit kalitesi, erişilen karşılaştırma evreninin genişliği ve çeşitliliği ile doğru orantılıdır.
-
Açık Web Taraması: Haber siteleri, bloglar, forumlar—fakat erişim, robots.txt ve telif düzenleriyle sınırlıdır.
-
Akademik Depolar: Tez/dizin veritabanları, makale arşivleri, kurumsal LMS geçmişleri.
-
Yerel Arşiv: Geçmiş ödevler, örnek çözümler, bölüm içi el kitapları, ders notları.
Veri yönetişimi açısından sürümleme, kalıcı kimlik (DOI, arşiv hash’i), yetkilendirme ve silme isteklerine uygunluk önemlidir.
9) Kod Ödevlerinde İntihal: Metinden Yapıya
Metin tabanlı teknikler kod için yetersizdir, çünkü anlamsal eşdeğerlik string dönüşümleriyle kolayca gizlenebilir. Bu yüzden:
-
AST (Abstract Syntax Tree) Benzerliği: Alt-ağaç eşleme, ağaç düzenleme mesafesi; yapısal benzerliğe odaklanır.
-
Token & K-Gram İmzaları: Değişken/işlev adlarını soyutlayıp token akışından parmak izi çıkarma.
-
Program Akış Analizi: CFG (Control Flow Graph) ve veri akışı benzerlikleri.
-
İşlevsel Test & Davranışsal Benzerlik: Rastgele test üretimiyle çıktılar karşılaştırılır; “farklı görünen ama aynı davranan” çözümler yakalanır.
Hibrit yaklaşımlar en etkili olanlardır: AST + token fingerprint + davranışsal test.
10) Winnowing ve Fingerprinting Stratejileri
Winnowing, n-gram’ların hash’lerinden kaydırmalı pencerelerde minimum hash seçerek parmak izi çıkarır. Metin/kod içinde küçük ekleme-çıkarma karşısında dayanıklıdır. Plagiarism chunking ile birlikte kullanıldığında raporlamada vurgulanan “eşleşen pasajlar”ın sınırları daha kararlı olur.
11) Çokdilli ve Çapraz-Dilli İntihal
Çeviri-intihali, cümle dizilimlerinin korunması ve anahtar kavramların eşdeğerlerinin tekrar etmesiyle kendini belli eder.
-
Çokdilli embedding ile çapraz dil benzerliği,
-
Makine çevirisi-geri çeviri (pivot) ile kaynak arama,
-
Adlandırılmış varlıkların ve terminolojinin izlenmesi (özellikle teknik derslerde),
-
Farklı alfabe/karakter kümelerinde normalizasyon (Latin-Kiril dönüşümleri, harf benzerlikleri).
12) Matematiksel İçerik, Tablolar ve Görseller
Ödevlerde yalnızca düz metin değil, formüller (LaTeX/MathML), çizimler, tablolar ve slayt ekran görüntüleri yer alır.
-
Formüller için yapısal ağaç temsilleri ve sembol dizileri üzerinden eşleşme,
-
Tablolarda başlık ve hücre semantiği ile şema eşlemesi,
-
Görsellerde perseptüel hash (pHash/aHash/dHash) ve OCR ile metin çıkarımı.
13) Eşik Seçimi, ROC Eğrileri ve Risk Yönetimi
Benzerlik skoru tek başına karar değildir. Kurumsal politika, ders bağlamı ve risk iştahına göre:
-
Çift eşik (yüksek eşik = otomatik uyarı; orta bant = insan değerlendirici; düşük = temiz),
-
ROC analizi ile hassasiyet/özgüllük dengesi,
-
Kalibrasyon (Platt scaling, isotonic regression) ile olasılıksal yorum.
Yanlış pozitif, pedagojik ve etik olarak büyük bedeller doğurur; bu nedenle sistemler her zaman kanıt görsellemesi(eşleşen pasaj işaretleme, kaynak bağlantıları) sağlamalıdır.
14) Adversarial Senaryolar ve Savunmalar
-
YZ-ile Paraphrasing: Semantik benzerlik + stilometri + kaynak tutarlılığı kontrolleri.
-
Kodda Otomatik Gizleme: AST alt-ağaç izleri, davranışsal test.
-
Metin Maskesi (Obfuscation): Unicode hileleri, görünmez karakter; normalizasyon zorunlu.
-
Kaynak Manipülasyonu: Sahte bibliyografya; atıf doğrulama ve bağlantı/DOI kontrolü.
Savunmalar, çoklu özellik ve ansambl modellerle güçlendirilir; izlenebilirlik ve tekrarlanabilirlik (versioned model & data) şarttır.
15) Gizlilik, Etik ve Hukuki Çerçeve
Öğrenci verisi kişisel veridir. Avrupa’da GDPR, Türkiye’de KVKK çerçevesinde:
-
Aydınlatma ve rızaya dayalı kullanım,
-
Veri minimizasyonu ve amaçla sınırlılık,
-
Silme/unutulma hakkı,
-
Şeffaf karar gerekçesi (açıklanabilir raporlar),
-
İtiraz ve itibar düzeltme yolları.
Ayrıca, intihal tespiti “cezalandırma”nın ötesinde öğretici müdahale sağlamalı; öğrenciyi doğru atıf ve araştırma etiği konusunda yönlendirmelidir.
16) Ölçeklenebilirlik ve Maliyet Tasarımı
Kurumsal kullanımda yüz binlerce belge/kod karşılaştırılır. Verimli bir mimari:
-
Stream & batch işleme kombinasyonu,
-
Vektör veritabanı (ANN) + LSH indeksleri,
-
Önbellekleme (geçmiş ödev parmak izleri),
-
Mikroservis tasarımı (ön-işleme, indeksleme, benzerlik, raporlama),
-
Queue & backpressure kontrolü (Kafka/RabbitMQ),
-
Maliyet izleme (model çağrıları, depolama, veri transferi).
17) Değerlendirme: Veri Kümeleri, Etiketleme ve Ölçütler
Adil kıyas için:
-
Çeşitli intihal türlerini içeren çokdilli veri seti,
-
Gerçek ödevlerden (anonimlenmiş) örnekler,
-
Etiketleyici anlaşması (Cohen’s kappa),
-
Ölçütler: Precision, Recall, F1, AUC-ROC, PR-AUC, Top-k geri çağırım.
-
Use-case temelli ölçüm: “İlk 3 uyarıdan en az biri doğru mu?” gibi operasyonel metrikler.
18) Vaka Çalışması: Orta Ölçekli Bir Üniversitede Hibrit Tespit
Bağlam: Yılda ~60.000 ödev, çokdilli programlar.
Çözüm:
-
Metin: Shingle (k=7), MinHash (128 imza), LSH (20 bant), ardından semantik benzerlik (Sentence-BERT tabanlı).
-
Kod: AST tabanlı benzerlik + token fingerprint + 20 rastgele testle davranışsal kıyas.
-
Eşikleme: Üst bant (>0.85 semantik; veya Jaccard >0.3 & örtüşen pasaj>400 kelime) otomatik bayrak; orta bant insan incelemesine yönlendirme.
Sonuç: Yanlış pozitif %1.8’e, ortalama inceleme süresi 14 dakikaya düştü; öğrenciler için otomatik atıf rehberi eklendiğinde tekrar oranı %23 azaldı.
Ders: İnsan-denetimli ansambl yaklaşımı, tek bir algoritmadan daha sağlıklı.
19) LMS Entegrasyonu ve Geri Bildirim Tasarımı
Öğrencinin öğrenmesini desteklemek için raporlar öğretici olmalı:
-
Kaynak gösterimi nasıl yapılmalı?
-
Hangi cümleler “ortak bilgidir”, hangileri özgün ifade gerektirir?
-
Kodda hangi kısım boilerplate, hangisi yaratıcı çözüm?
-
Düzeltme için adım adım öneriler (ör. “Bu paragrafı kendi sözlerinle yeniden yaz, yönteme özgü verileri özetle ve şu kaynağa atıf ver”).
20) Model Güvenliği, İzlenebilirlik ve Sürümleme
-
Model kartları: Eğitim verisi, limitler, riskler.
-
Sürüm damgası: Hangi model sürümü hangi ödevi değerlendirdi?
-
Audit trail: Parametreler, eşikler, indeks anlık görüntüleri.
-
Canary & A/B: Yeni model geçişlerinde performans izleme.
21) Öğrenci Deneyimi: Ceza Değil Rehberlik
Algoritmaların amacı öğrenmeyi ilerletmek olmalıdır. Başlangıç seviyelerinde düşük riskli rehberlik, ileri seviyelerde daha sıkı değerlendirme; her iki durumda da itiraz ve açıklama mekanizmaları açık olmalıdır. Akademik etik, yalnızca “yakalama” değil, alışkanlık kazandırma sürecidir.
Sonuç
Otomatik ödev kontrol sistemlerinde intihal tespiti, basit bir “benzerlik yüzdesi” göstergesinden ibaret değildir; çok katmanlı, bağlamsal ve pedagojik bir süreçtir. Metin dünyasında shingle/MinHash/LSH gibi ölçeklenebilir yaklaşımlar kaba benzerlikleri hızla elerken, günümüzün asıl meydan okuması olan paraphrasing ve çeviri-intihali için semantik embedding ve transformer tabanlı modeller belirleyici hale gelmiştir. Kod ödevlerinde ise AST ve davranışsal testmerkezli hibrit yöntemler, yüzeysel kamuflajları aşarak “özde benzerliği” yakalar.
Bununla birlikte, en etkili sistemler yalnızca doğruluk yüksekliğiyle değil, etik tasarım ilkeleriyle öne çıkar: şeffaf raporlama, kanıt görsellemesi, veri minimizasyonu, öğrencinin mahremiyetine saygı, itiraz/teyit kanalları ve eğitici geri bildirim. Kurumsal ölçekte vektör veritabanları, LSH indeksleri, mikroservis mimarisi ve izlenebilirlikmekanizmaları operasyonu sürdürülebilir kılar. Değerlendirme, yalnızca laboratuvar metrikleriyle değil, vaka temelli başarı ölçütleri ve kullanıcı deneyimiyle desteklenmelidir.
Son kertede, etkili bir intihal tespit çözümü, algoritma mühendisliği ile öğretim tasarımını buluşturur. Amaç, daha “çok yakalamak” değil; daha iyi öğretmek, daha adil değerlendirmek ve akademik topluluğun güvenini güçlendirmektir. Gelişmiş semantik modeller, ölçeklenebilir indeksleme teknikleri ve insan-denetimli karar akışlarıyla kurulan ansambl yaklaşımlar, hem doğruluk hem de kabul edilebilirlik temelinde geleceğin ödev kontrol sistemlerini şekillendirecektir.
No responses yet