Veri bilimi projeleri; veri toplama, temizleme, öznitelik mühendisliği, modelleme, değerlendirme, üretime alma (MLOps) ve sürekli izleme evrelerinden oluşan çok aşamalı bir üretim sürecidir. Bu sürecin hemen her noktasında intihal(plagiarism) riski ortaya çıkabilir: Kaggle’tan indirilmiş bir çekirdek (kernel) kodunun küçük kozmetik değişikliklerle “kendi çalışmamız” gibi sunulması, lisans kısıtlı bir veri setinin kaynaksız kullanılması, bir makaleden alınan özellik çıkarım hattının (pipeline) veya model mimarisinin neredeyse aynen kopyalanması, başka bir ekibin hiperparametre arama sonuçlarının izinsiz aktarılması, hatta başkasının ürettiği görsellerin ve metrik grafikleri’nin kaynak belirtilmedenrapora konulması… Üstelik modern büyük dil modelleri (LLM) ve kod üreticilerinin yaygınlaşmasıyla, “parafraz” ve “gizli kopya” vakaları daha sinsi hale geliyor.
Bu yazı, veri bilimi projelerinde intihal denetimini uçtan uca bir çerçevede ele alır: kavramsal tanımlar; kod, veri ve model katmanlarında intihal tipolojisi; tespit için metin/kod/graf benzerlikleri; veri köken (provenance) ve deney izleme (experiment tracking); değerlendirme metrikleri ve “skor intihali”; görsel/rapor denetimi; MLOps’da üretim-öncesi ve sonrası kontroller; çokdillilik ve gizlilik (KVKK/GDPR) boyutu; kurum politikaları; vaka çalışmaları; ve uygulanabilir bir yol haritası. Amacımız yalnızca “yakalamak” değil, öğretici önleme ve etik tasarım kültürünü kurumsallaştırmaktır.
1) Veri Biliminde İntihal Nedir? (Kod–Veri–Model Üçlemesi)
Veri bilimi bağlamında intihal üç ana katmanda incelenir:
-
Kod intihali: Not defterleri (Jupyter/Colab), modüler Python/R paketleri, eğitim betikleri, veri hazırlama fonksiyonları ve hatta “pipeline” konfigurasyonlarının izinsiz/kaynaksız kullanımı veya üstünkörü parafrazı.
-
Veri intihali: Lisans kısıtlı veri setlerinin izinsiz kullanımı; başka bir çalışmadan gelen “feature store” ögelerinin kaynaksız devralınması; veri çoğaltma (augmentation) betiklerinin aynen kopyası.
-
Model intihali: Mimari tasarımın (ör. bir makalede sunulan feature pipeline + loss + regularizer kombinasyonu) veya hiperparametre setlerinin kopyalanması; hazır ağırlıkların (weights) izinsiz dağıtımı; değerlendirme/raporlama çıktılarının (ROC, PR eğrileri) kaynaksız kullanımı.
İntihal tespiti, bu üç katmanın birlikte izlenmesine dayanmalıdır.
2) Tipoloji: Yüzeysel Oynamalar, Yapısal Eşdeğerlik ve Davranışsal Benzerlik
-
Yüzeysel maskeleme: Değişken/fonksiyon adlarını değiştirme, cell sıralarını oynama, “random_state” dışında küçük değişikliklerle aynı sonuç üretme.
-
Yapısal eşdeğerlik: Pipeline adımlarının ve veri akışının neredeyse aynı olması (ör.
StandardScaler→PCA→LogisticRegression
ve aynı parametre sınırları). -
Davranışsal benzerlik: Farklı görünen kodların aynı veri üzerinde benzer hata profilleri, aynı yanlış sınıflar ve aynı metrik kırılımları üretmesi.
-
Rapor/görsel intihali: Başkalarının grafikleri (ROC, Confusion Matrix) veya tablo biçimlerinin görsel/renk/etiket düzeyi değişerek sunulması.
-
Model artefakt intihali:
model.pkl
,tokenizer.json
,preprocessor.dvc
gibi varlıkların izinsiz yeniden kullanımı.
3) Kurumsal Politika: Tanım, Kapsam ve Yaptırımlar
Net bir etik sözleşme ve yönerge hazırlanmalıdır:
-
Hangi katmanlar denetlenecek? (Kod, veri, model, rapor)
-
Kabul edilebilir yeniden kullanım nedir? (Açık kaynak lisansları, atıf biçimi)
-
YZ araçlarının (LLM, kod asistanları) beyan zorunluluğu.
-
İhlal bantları: Uyarı → pedagojik düzeltme → not/performans yaptırımı → disiplin/hukuk süreci.
-
İtiraz ve kanıt mekanizması.
4) Kaynak Evreni: Karşılaştırma İçin Ne Gerekiyor?
Adil bir denetim için geniş bir karşılaştırma evreni kurulur:
-
İç arşiv: Önceki projeler, not defterleri, feature store, model deposu (MLflow/Weights & Biases), sunum/raporlar.
-
Açık kaynak: GitHub/GitLab, Kaggle kernel’leri, Papers With Code betikleri, blog/medium yazıları.
-
Akademik kaynaklar: ArXiv, dergi eklentileri (supplementary), benchmark repo’ları.
-
Lisanslı veri setleri: Kullanım koşulları ile birlikte (örn. CC BY-NC, ODbL).
5) Kod Benzerliği: Token → AST → PDG/CFG → Davranış
Katmanlı tespit:
-
Token/n-gram/winnowing: Hızlı kaba filtre; değişken adları maskelenir.
-
AST (Abstract Syntax Tree): Alt-ağaç eşleştirmeleri ile yapısal benzerlik; import/top-level pattern analizi.
-
PDG/CFG (Program/Data Dependency Graph): Veri ve kontrol akışı benzerliği; kozmetik farklılıkları eleyerek özdeş akışı yakalar.
-
Davranışsal testler: Aynı seed/girdi setinde aynı hataların üretimi; “farklı görünen aynı çözüm”.
İpucu: Şablon/iskelet kodu beyaz liste olarak maskeleyin; yanlış pozitifleri düşürür.
6) Veri Kökeni (Provenance) ve Hak Yönetimi
Veri intihalinin çekirdeği köken takibidir:
-
Kaynak ve lisans kaydı: DOI/URL, yükleme tarihi, lisans türü (CC, ODbL, kuruma özel), atıf şartları.
-
DVC/LakeFS ile versiyonlama: Ham verinin hash’leri, dönüşüm betikleri ve çıktılar arasında izlenebilir zincir.
-
PII/KVKK/GDPR: Kişisel veri içeriyorsa anonimleştirme/pseudonymization; paylaşım kısıtları.
-
Data lineage panosu: “Bu özellik nereden geliyor?” sorusuna tek tıkta yanıt.
7) Feature Store ve Pipeline Denetimi
Özellik mühendisliği kopyasının yaygın olduğu alan:
-
Feature tanımı sözlüğü: Her öznitelik için ne, nasıl, hangi işlevle üretildi; kimlik ve versiyon.
-
Dönüşüm grafı:
raw → clean → join → feature
adımları; graf izleme ile yapısal benzerlik tespiti. -
İmza (fingerprint): Örneklem üzerinde dağılım/istatistik imzası (mean, std, KS-test). Benzer imzalar kopyaya işaret edebilir.
8) Model Mimarisinde ve Hiperparametrelerde İntihal
-
Mimari şablonlar: Sklearn pipeline’ları, XGBoost parametre setleri, derin öğrenmede katman dizilimleri.
-
Hiperparametre imzası: Grid/Random/Bayes arama “en iyi set”lerinin doğrudan kopyası.
-
Ağırlık/Tokenizer izleri: Hash’ler veya su-izi (watermark) ile model dosyası kökeni.
-
Eğitim günlüğü (artifact log): Epoch metrikleri, kayıp eğrileri ve durdurma noktaları—şüpheli benzer izler.
9) Değerlendirme ve “Skor İntihali”
“Skoru yükseltmek” için uygunsuz pratikler:
-
Veri sızıntısı (data leakage): Standartlaştırmanın train+test’e birden uygulanması, hedefin sızması, zaman sarkması ihlali.
-
Benchmark hilesi: Public leaderboard’a overfit; test setinin farkında olmadan “öğrenilmesi”.
-
Metrik makyajı: Yalnız uygun metriklerin raporlanması, sınıf dengesizliğinde accuracy’nin öne çıkarılması.
Denetim: K-fold/TimeSeriesSplit izleri, veri ayrım tohumları, pipeline “fit/transform” sınırları, reproducibility check.
10) Görsel ve Rapor İntihali
-
Graf ikizleri: ROC/PR eğrileri, öğrenme eğrileri, SHAP/feature importance grafikleri—etiket/tema değişse de biçimsel/matematiksel izler korunur.
-
Tablo ve metin: Skor tabloları, ablation çalışmalarının aynen kopyası.
-
Alıntı/atıf: Makale/rapor pasajlarının kaynaksız parafrazı.
Araç: Perseptüel hash (grafik görüntüsü), OCR metni, “değer dizisi” imzası (ör. AUC noktaları).
11) YZ ve Kod Asistanları: Beyan ve İzlenebilirlik
-
Beyan şablonu: “Bu projede X bölümlerinde YZ’den yardım alındı; şu değişiklikler yapıldı.”
-
Sürümle birlikte kayıt: Prompt ve yanıtların saklanması gizlilik sınırları içinde; mümkün değilse özet beyan.
-
Terbiye (guardrails): Editör içinde “benzerlik artıyor” uyarısı; lisans uyarıları.
12) Deney İzleme (Experiment Tracking) ile Kanıt Zinciri
MLflow/Weights & Biases/Sacred gibi platformlarla:
-
Koşumlar (run), parametreler, metrikler, artefaktlar, veri sürümü ve kod commit’i bağlantılanır.
-
Re-run ile tekrar üretilebilirlik testi.
-
Anomali izleri: Bir kullanıcının run dağılımı, önceki projelerine göre stilmometri benzeri davranış farkları.
13) “İntihal Skoru”nu Bileşik Olarak Kurgulamak
Tek sayı yanıltıcı olabilir; çok bileşenli bir risk skoru önerilir:
S=αSkod+βSpipeline+γSveri+δSmodel+ζSrapor−ηSboilerplate
-
Skod: Token/AST/CFG/PDG benzerliği
-
Spipeline: Dönüşüm grafı ve feature imzası benzerliği
-
Sveri: Köken/lisans ihlali, benzer dağılım imzası
-
Smodel: Mimari/hiperparametre/ağırlık izleri
-
Srapor: Görsel/tablo/metin benzerliği
-
Sboilerplate: Şablon/çıktı iskeleti düşürücüsü
Çift eşik: Üst bant (otomatik bayrak), orta bant (insan inceleme), alt bant (temiz). ROC/PR ile kalibrasyon.
14) Eğitim ve Rubrik: Önlemenin Pedagojik Yüzü
-
Rubrik: Yalnız skor değil; açıklama raporu, veri kökeni, model gerekçesi, hata analizi.
-
Ara teslim–mini viva: “Neden bu pipeline?” “Leakage testi nasıl yapıldı?”
-
Kopyayı işlevsiz kılma: Öğrenci/ekip özel veri veya parametre setleri.
15) MLOps Boru Hattında Kontrol Noktaları
-
Pre-commit hook: Stil/lint + lisans başlıkları + temel benzerlik.
-
CI/CD aşaması: Unit/integration testleri + reproducibility check + veri sözleşmesi (data contract).
-
Model registry girişinde: Artefakt hash kontrolü, lisans/kaynak alanları zorunlu, kanıt paketinin iliştirilmesi.
-
Üretim sonrası izleme: Drift ve performans; şüpheli “mucize iyileşmeler” için geriye dönük denetim.
16) Gizlilik ve Hukuk (KVKK/GDPR, Telif, Lisans)
-
PII koruması: Denetim için gerekli en az veri; maskeleme/anonimleştirme.
-
Lisans uyumu: Veri (ODC-By, ODbL), kod (MIT/Apache/GPL), model/weights (CreativeML/OpenRAIL vb.).
-
Saklama süresi: Kanıt paketleri ve logların politika bazlı tutulması ve silinmesi.
17) Çokdillilik ve Çeviri-İntihali
-
Çokdilli embedding ile rapor/README benzerliği; pivot çeviri ve geri çeviri kıyası.
-
Terim sözlükleri: Alan-özgü terminoloji eşlemesi (TR-EN-DE).
-
Grafik/metin uyumu: Şekil alt yazıları ve metin içi atıfın dil-ötesi tutarlılığı.
18) Raporlama Tasarımı: Editör–Eğitmen–Yönetici İçin Kanıt
-
Kod eşleşme ısı haritası (satır/blok vurguları).
-
Pipeline/graf karşılaştırması (DAG yan yana).
-
Veri köken paneli (kaynak, lisans, hash).
-
Model/hiperparametre diff ve ağırlık hash karşılaştırması.
-
Görsel benzerlik (pHash + OCR değerler) ve metin atıf kontrolü.
-
Düzeltme öneri kartları: “Leakage kontrolü ekleyin”, “Ablation çalışmasını kaynaklandırın”.
19) Vaka Çalışması A: Kaggle Kernel’inden “Esinlenen” Saha Projesi
Durum: Ekip üyesi, popüler bir kernel’i iç ağa taşıyıp küçük değişikliklerle raporlar.
Denetim: AST+PDG benzerliği % yüksek; ROC/PR grafiklerinin pHash’i neredeyse eş; veri köken kayıtlarında lisans yok.
Çözüm: Atıf ve lisans şartlarını yerine getirerek yeniden yazım; veri sözleşmesine uyum; özgün ablation ve hata analizi eklenir.
20) Vaka Çalışması B: Leakage ile Şişen Skor
Durum: Üretim öncesi AUC beklenenden yüksek.
Denetim: Pipeline’da fit_transform
tüm veriye uygulanmış; TimeSeriesSplit yerine rastgele K-fold.
Çözüm: Zaman tabanlı ayrım; transform yalnız train’de fit; skor düşer ama genelleme artar. İhlal skoru orta bantta, pedagojik düzeltme ile kapanır.
21) Vaka Çalışması C: Model Ağırlığı İntihali
Durum: Üçüncü taraf danışmanın getirdiği best_model.pt
dosyası, başka bir kurumun reposundaki ağırlıklarla aynı hash.
Denetim: Hash eşleşmesi + eğitim günlüğü izleri uyumsuz.
Çözüm: Model registry politikası gereği reddedilir; yeniden eğitim talebi ve yasal bildirim süreçleri.
22) Süreç ve Roller: Kim, Ne Zaman?
-
Ekip üyesi/öğrenci: Beyan ve öz-denetim; veri kökenini eksiksiz işaretleme.
-
Eğitmen/editör/tech lead: Orta bant inceleme, düzeltme görevleri.
-
MLOps/Data steward: Kayıt, izleme, veri sözleşmeleri, model registry kontrolü.
-
Hukuk/uyum: Üst bant vakalarda telif/lisans ve gizlilik değerlendirmesi.
23) Başarı Metrikleri: Sadece “Yakaladık” Değil, “Öğrettik” de
-
Yanlış pozitif/negatif oranları, inceleme süresi (dakika/case).
-
Revizyon sonrası tekrar oranı (re-offense).
-
Reproducibility oranı (başarılı re-run payı).
-
Eğitimlerin etkisi (öncesi/sonrası risk skoru dağılımı).
-
Üretim hatalarında skor kayması düşüşü.
24) Yol Haritası: 60–90 Günlük Uygulama Planı
-
Hafta 1–2: Politika ve rubrik; kaynak evrenini kur; veri/artefakt sözleşmeleri.
-
Hafta 3–6: Kod/rapor tespiti pilotu (token→AST→PDG + pHash/OCR); DVC/MLflow devreye.
-
Hafta 7–10: Pipeline ve model registry kontrolleri; reproducibility botu.
-
Hafta 11–12: Eşik kalibrasyonu (ROC/PR), eğitim atölyeleri; itiraz süreci ve şablonlar.
-
Sürekli: Post-mortem, metrik panosu, guardrails geliştirmeleri.
25) Gelecek: Multimodal, Su-İzi ve Kaynak-Zorunlu Raporlar
-
Multimodal tespit: Kod + veri dağılımı + grafik + metin birlikte embedding.
-
Su-izi (watermark) araştırmaları: Model ağırlıkları ve sentetik veri üretiminde istatistiksel izler.
-
Zorunlu kaynakça: Proje raporlarında “yeniden kullanım tablosu” (kod/veri/model/rapor kaynakları) standart hale geliyor.
Sonuç
Veri bilimi projelerinde intihal denetimi, yalnızca “aynı kodu yakalamak” değildir. Kod–veri–model üçlüsünde, yüzeysel, yapısal ve davranışsal katmanları birlikte değerlendiren bir sistem gerektirir. Etkili bir yaklaşımın sac ayakları:
-
Teknik tespit ansamblı: Token/AST/PDG/CFG, pipeline/DAG benzerliği, veri kökeni ve lisans denetimi, model/hiperparametre/ağırlık izleri, görsel/rapor pHash+OCR; reproducibility ve leakage testleri.
-
Yönetişim ve araç zinciri: DVC/LakeFS ile veri versiyonlama, MLflow/W&B ile deney izleme, model registry ve veri/model sözleşmeleri, CI/CD guardrails.
-
Pedagoji ve kültür: Rubrik, beyan, mini-viva, kopyayı işlevsiz kılan ödev/proje tasarımları; itiraz ve düzeltme odaklı süreçler.
-
Hukuk ve gizlilik: KVKK/GDPR uyumu, lisans ve atıf pratikleri; kanıt paketlerinin güvenli ve sınırlı süreli saklanması.
-
Süreklilik: Eşik kalibrasyonu, metrik izleme, post-mortem ve eğitim döngüsü; guardrails’in editör/IDE içine taşınması.
Bu bütüncül mimari, intihali cezalandırıcı bir barikat olmaktan çıkarır; öğretici ve üretken bir kalite güvence sistemine dönüştürür. Böylece ekipler yalnız daha “temiz” değil, aynı zamanda daha tekrarlanabilir, daha açıklanabilir ve daha güvenilir veri bilimi çıktıları üretir. Son tahlilde kazanan, yalnız etik değil; bilimsel doğruluk, iş değeri ve kalıcı öğrenme olur.
No responses yet