Dijital kütüphaneler—ulusal arşivler, üniversite kurumsal açık erişim (OA) depoları, araştırma veri havuzları, e-dergi platformları, gazete arşivleri, e-kitap koleksiyonları ve tez/sunum katalogları—bilginin dijital çağdaki ana omurgasıdır. PDF, EPUB, TIFF, DjVu, HTML, XML/TEI gibi heterojen formatlar; taranmış görüntülerin OCR ile metne dönmesi; çok dilli ve çok alfabeli (TR, EN, AR, RU, EL…) içerik; bibliyografik meta verilerin farklı şemaları (MARC21, Dublin Core, MODS, METS, TEI) ve tarama/indeksleme protokolleri (OAI-PMH, IIIF) bu ekosistemi hem verimli hem de karmaşık kılar. Bu karmaşıklığın ortasında kütüphanecilerin ve araştırma ofislerinin sık sorduğu soru şudur: “Koleksiyonumda intihal nasıl otomatik taranır; hem adil hem de ölçeklenebilir biçimde?”
1) Risk Haritası: Kütüphane Bağlamında İntihalin Biçimleri
-
Metin intihali: Eserler arası birebir veya yakın-parafraz eşleşmeler (tez–makale, makale–kitap bölümü, rapor–ödev vb.).
-
Çeviri-intihali: Bir dildeki metnin başka dilde kaynak belirtilmeden yayınlanması.
-
Şablon/boilerplate taşması: Özet/sunum/kılavuz metinlerinin geniş ölçekli tekrarları; skoru kirleten ama ihlâl olmayan örnekler.
-
Görsel/figür/tablo intihali: Şema, infografik, harita ve tablo içeriklerinin izinsiz yeniden kullanımı.
-
Kendi kendine intihal (self-plagiarism): Aynı yazarın önceki eserlerinden izinsiz ya da uygun atıfsız büyük kısımları taşıması.
-
Kaynakça “maskeli” intihal: Metin içi atıf var gibi durur; ancak pasaj eşlemesi yüksek ve atıf bağlamı zayıftır.
2) Veri Peyzajı: Formatlar, Şemalar ve Protokoller
-
Format heterojenliği: PDF (doğal/“born-digital”), taranmış sayfa (TIFF/JPEG+PDF), EPUB, HTML, XML/TEI.
-
Meta veri şemaları: MARC21, Dublin Core, MODS, METS/ALTO (OCR), TEI, Crossref/Datacite şemaları.
-
Toplama protokolleri: OAI-PMH ile meta veri harmanlama; IIIF ile sayfa seviyesinde görsel erişim.
-
Kimliklendirme: DOI, Handle, ARK, ISBN/ISSN, ORCID/ISNI; yazar ayrıştırma (disambiguation) şart.
3) Ön-İşleme ve Normalizasyon Boru Hattı
-
Metin çıkarımı: PDF doğalsa metni doğrudan; taranmışsa OCR (Latin+non-Latin; TR diakritik koruması).
-
Gürültü temizliği: Dipnot/başlık/altlık, sayfa numarası, içerik tablosu, reklam/duyuru ayıklama.
-
Dil tespiti ve bölütleme: Cümle/paragraf/sayfa pencereleri; karma dilli belgelerde bölüm bazlı dil etiketleri.
-
Standartlama: Unicode NFKC, noktalama normalizasyonu, alıntı işaretlerinin birleştirilmesi.
-
Boilerplate sözlüğü: Tez şablonu, etik bildirim, teşekkür, yöntem şablonları; beyaz liste.
4) Aday Çıkarma: Ölçek İçin Hız Katmanı
-
Shingling (5–13 kelime) ve winnowing ile yerel parmak izleri.
-
MinHash/LSH: Milyonlarca doküman içinden hızlı aday kaynak kümeleri.
-
Sayfa/pasaj indeksleme: “Tüm belge” yerine pasaj/sayfa düzeyi; hassas ve açıklanabilir kanıt.
5) Derin Karşılaştırma: Semantik ve Yapı Katmanları
-
Çokdilli embedding (cümle/paragraf): Parafraz ve çeviri-intihali yakalamak için ANN (HNSW/IVF-PQ).
-
Yapı sinyali: Başlık hiyerarşisi, bölüm/alt bölüm akışı, tez bölümleri (Giriş–Yöntem–Bulgular–Tartışma).
-
Atıf/alıntı farkındalığı: Tırnak/blok alıntı ve doğru dipnotlar skoru düşürür, kaynakçasız aynılık skoru yükseltir.
6) Görsel/Tablo/Şema Eşlemesi
-
pHash/dHash: Figür ve şema türevleri (kırpma/ölçek/renk değişimi).
-
OCR + tablo şeması analizi: Kolon başlıkları, birimler, istatistik pattern’leri; eş tablo sinyali.
-
IIIF ile sayfa taneli kanıt: Şemanın görüldüğü sayfaya kalıcı bağlantı.
7) Atıf Grafı ve “İlk Görülme” (First-Seen) Mantığı
-
Zaman damgası: Yayın/gönderim/kayıt tarihleri; mümkünse ilk indekslenme zamanı.
-
Atıf grafı: Kaynakça kenarları; atıf var ama pasaj benzerliği yüksek ise “zayıf atıf” etiketi.
-
Sürüm/edisyon yönetimi: Preprint–postprint–yayınlanmış sürümler; meşru tekrar ile intihalin ayrıştırılması.
8) Yazar ve Kurum Ayrıştırma
-
ORCID/ISNI eşlemesi; ada dayalı belirsizliği (homonim/sinonim) azaltır.
-
Kurum adı normalizasyonu: GRID/ROR; kurum içi tekrar/kendi kendine intihal analizini güçlendirir.
9) Çokdillilik ve Alfabe Çeşitliliği
-
TR↔EN↔AR/FA/EL/RU gibi yönlerde pivot çeviri + semantik eşleşme.
-
Transliterasyon varyantları (İstanbul/Istanbul/Constantinople) için ad varlık eşleyici.
-
Dil başına eşik profili: Türkçe kısa cümle yoğun; İngilizce uzun cümle; Arapça bağlaç yoğunluğu—eşikler farklı.
10) OCR Hatalarıyla Başa Çıkma
-
Karakter konfüzyon modelleri: ı/i, o/ö, rn/m, l/1; fuzzy eşleşme.
-
Dil modeli düzeltmesi: OCR sonrası dil-kısıtlı düzeltme; kanıt kartında ham pasaj + düzeltilmiş pasaj birlikte.
-
Görüntü kalitesi sinyali: Düşük DPI sayfalarda yanlış pozitif eşiği yükseltme.
11) Kamu Malı ve Açık Lisanslı İçeriklerde Çizgi
-
Public domain/CC BY/CC BY-SA eserlerde intihal ≠ telif ihlali; atıf eksikliği ve etik odaklı değerlendirme.
-
Remix ve türev eserler: Lisans koşullarına (BY-SA paylaşımlı lisans vb.) uygunluk kontrolü.
12) Bileşik Risk Skoru: Adil ve Açıklanabilir
S=αSyu¨zey+βSsemantik+γSyapı+ζSgo¨rsel/tablo−δSboiler+κSatıf_eksiklig˘i
-
Tür bazlı ağırlıklar: Tez, makale, kitap bölümü, rapor, ders notu.
-
Çift/üç bant: Üst (inceleme zorunlu), orta (öneri/düzeltme), alt (temiz).
13) Raporlama ve Kanıt Kartı Tasarımı
-
Pasaj önizlemesi + kaynak bağlamı (sayfa/timestamp/IIIF canvases).
-
Sinyal ayrıştırması: Yüzey/semantik/görsel katkı yüzdeleri; “boilerplate rozeti”.
-
Öneri butonları: “Atıf ekle”, “uzun alıntıyı kısalt”, “şekil/tabloda kredi ver”.
14) İtiraz ve İnceleme Süreci
-
Şeffaf ekran: Hangi pasajlar, hangi kaynaklarla eşleşti; hangi kısımlar beyaz listede.
-
Akademik kurul/etik komite akışı: Üst bant vakalar için çift hakemli inceleme.
-
Zaman hedefi: Orta bant ≤ 7 gün; üst bant ≤ 30 gün.
15) Yanlış Pozitif/Negatif Yönetimi
-
Çoklu sinyal şartı: Tek katmanda yüksek skor → uyarı, bayrak için en az iki katman.
-
Yaygın tanımlar ve formüller: Kanonik ifadeler beyaz listede.
-
Örnek galeri: Kurulca “temiz” bulunan tartışmalı vakaları sözlüğe işleyerek gelecek hataları azaltma.
16) Koleksiyonlar Arası İşbirliği ve Harmanlama
-
OAI-PMH harvest ile ulusal/kurumsal depoların taranması; çapraz kurum eşleşmesi.
-
Crossref/Datacite ile DOI/metadata zenginleştirme; “ilk yayın” otoritesi.
-
Paylaşılan parmak izi havuzu: Intihal tarama sonuçlarının anonim özetleri (gizlilikle).
17) Erişim ve Gizlilik (KVKK/GDPR)
-
Veri minimizasyonu: Kanıtta yalnız kısa pasaj + kalıcı link; PII maskeleme.
-
Rol bazlı erişim: Kütüphaneci, editör, jüri; öğrencinin/adayın anonimleştirilmesi.
-
Saklama politikası: Belge sürümleri ve tarama logları için süre ve silme hakları.
18) Operasyon: Kapılar ve Akış
-
Yükleme kapısı (ingest gate): Yeni eser kabulünde anlık tarama; risk barı orta/üstse yayın bekletilir.
-
Toplu yeniden tarama: Model/indeks güncellemesinden sonra dönemlik batch.
-
Sıcak/soğuk depolama: Son 2 yıl sıcak; eski yıllar objeye taşınır, parmak izi RAM’de pinlenir.
19) Başarı Metrikleri
-
Yanlış pozitif/negatif oranları, inceleme başına dakika.
-
Uyarıdan sonra düzeltme/atıf ekleme yüzdesi.
-
Kendi kendine intihal vakalarında tekrar oranı.
-
İş birliği etkisi: Kurumlar arası eşleşme kapsama alanı.
20) Vaka Çalışması A — Tez Arşivi
Durum: Son 10 yılda 40.000 tez; şikâyetler artıyor.
Müdahale: Shingle+LSH → çokdilli semantik → atıf grafı; boilerplate sözlüğü.
Sonuç: Üst bant oranı %7,9 → %2,6; orta bant vakalarında “atıf ekle”yle çözüm %61.
21) Vaka Çalışması B — E-Dergi Platformu
Durum: Farklı dillerde aynı konu; çeviri-intihali şüphesi.
Müdahale: Dil bölütleme + pivot çeviri + ANN; figür pHash ve tablo şeması.
Sonuç: 18 ayda 32 teyitli vakada düzeltme/geri çekme; yanlış pozitif %35 azaldı.
22) Vaka Çalışması C — Gazete Arşivi
Durum: 20. yüzyıl sayfaları OCR hatalı; rapor gürültülü.
Müdahale: OCR hata modeli + fuzzy eşleşme + düşük DPI sayfalarda eşik yükseltme.
Sonuç: İnceleme yükü −%28; kanıt kartlarında güven artışı.
23) Eğitim ve Kültür: “Yakalama”dan “Öğretme”ye
-
Atölyeler: Alıntı/atıf, görsel/tabloda kredi, çeviri beyanı.
-
Yazar rehberi: “Aynı fikri nasıl özgünleştiririm?”—veri/örnek/yerel bağlam ekleme.
-
Pozitif teşvik: Düzeltme yapan yazarlara “şeffaflık” rozeti.
24) 60–90 Günlük Uygulama Planı
-
Hafta 1–2: Risk haritası, meta veri envanteri, boilerplate sözlüğü, gizlilik/rıza metinleri.
-
Hafta 3–5: Shingle+LSH pilotu; OAI-PMH ile komşu kurumdan örnek harman.
-
Hafta 6–8: Çokdilli semantik katman; pHash/OCR tablo şeması; kanıt kartı şablonları.
-
Hafta 9–10: Eşik kalibrasyonu (ROC/PR), atıf grafı ve “ilk görülme” entegrasyonu.
-
Hafta 11–12: Yükleme kapısı yaygınlaştırma; metrik panosu; eğitim atölyeleri ve beyaz liste güncellemeleri.
25) Gelecek: Multimodal Birleşik Embedding ve Açıklanabilirlik
-
Metin+görsel+tablo+layout birleşik embedding; figür-metin bağını daha isabetli yakalar.
-
Açıklanabilir raporlar: Katman bazında özgül katkı grafikleri; kullanıcıya “neden” gösterimi.
-
Su-izi/watermark sinyalleri: Üretken YZ için yalnız uyarı amaçlı, karara tek başına dayanak değil.
Sonuç
Dijital kütüphanelerde otomatik intihal taraması, sadece “benzerlik yüzdesi” veren bir kutu değil; kurumsal şeffaflık, akademik dürüstlük ve bilgi mimarisinin sürdürülebilirliği için stratejik bir altyapıdır. Etkili bir sistem:
-
Çok katmanlı (yüzeysel–semantik–yapısal–görsel–atıf grafı) bir yaklaşımı pasaj/sayfa düzeyinde uygular;
-
Boilerplate ve şablon farkındalığı ile yanlış pozitifleri azaltır; çeviri-intihali ve kendi kendine intihali adil biçimde ayırır;
-
OAI-PMH/IIIF ve DOI/ORCID gibi kimlik ve erişim standartlarıyla entegre çalışır;
-
KVKK/GDPR uyumlu gizlilik, veri minimizasyonu ve rol-bazlı erişim ilkelerini gözetir;
-
Kanıt kartları, itiraz süreci ve eğitim ile “yakalamayı” öğrenmeye dönüştürür;
-
Metrik ve kalibrasyon kültürüyle zaman içinde daha isabetli, adil ve kabul gören bir denetim inşa eder.
Son tahlilde amaç, kütüphaneyi cezai bir bariyer değil, kaynak şeffaflığını ve özgün katkıyı teşvik eden bir bilgi platformu olarak güçlendirmektir. Bu sayede kurum; eser sahiplerinin hakkını korur, okur/gözlemci güvenini artırır ve bilginin dolaşımını—etik ve sürdürülebilir biçimde—hızlandırır.
No responses yet