Elektronik yayıncılık; akademik makalelerden teknik raporlara, e-dergilerden beyaz kitaplara, e-kitaplardan kurumsal sunum paketlerine kadar çok geniş ve hızla çoğalan bir içerik evreni yaratıyor. Bu evrende intihal yalnızca “aynı cümleleri kopyalamak” değildir. Pek çok vaka, format düzeyinde (biçimsel, yapısal ve tipografik katmanlarda) iz bırakır: başlık hiyerarşileri, paragraf mimarileri, referans stilleri, şekil–tablo numaralandırma ritimleri, alt yazı dilinin kalıpları, görsel kapsayıcılarının (figure, frame, float) dizilişi, PDF yerleşimindeki koordinat paternleri, EPUB akışındaki stil sınıfları, LaTeX makrolarının izi, hatta erişilebilirlik amaçlı eklenen alt metinlerin kendine has dil seçimi… Bu izler, metni agresifçe parafraz edenler tarafından bile çoğunlukla unutulur. İşte format tabanlı intihal algoritmaları, metin yüzeyini aşarak bu derin izleri okuyup, kopyanın “gölgesini” yakalamak için tasarlanır.

1) “Format Tabanlı” Ne Demek? Metnin Ötesindeki İzler
Klasik intihal yaklaşımları metnin kendisini—kelimeleri, cümleleri, paragrafları—karşılaştırır. Oysa elektronik yayınlar çok katmanlı veri yapılarına sahiptir:
-
İşaretleme katmanı: HTML/EPUB (XHTML + CSS), LaTeX makroları, Markdown işaretleri.
-
Yerleşim katmanı: PDF sayfa koordinatları, font gömme bilgisi, satır kırılımları, hyphenation izleri.
-
Yapısal katman: Bölüm–alt bölüm ağaçları, numaralandırma şemaları, figure/table/algorithm ortamları.
-
Erişilebilirlik katmanı: Alt metinler, ARIA roller, okunabilirlik sırası.
-
Kaynakça katmanı: BibTeX/CITeX/EndNote stilleri, atıf–referans biçemleri.
Format tabanlı intihal algoritmaları, bu katmanların süreç içinde farkında olmadan kopyalanan desenlerini çıkarır. Amaç, metin yüzeyi parafraz edilse bile korunan kurgu ve formu yakalamaktır.
2) Belge Türlerine Göre İç Yapılar: PDF, EPUB/HTML, LaTeX, Markdown
-
PDF: Nihai yerleşim formatıdır. Her satır/sayfa koordinat düzeyinde temsil edilir; gömülü font kimlikleri, satır kırılımları, kerning/ligature izleri ve “reading order” (okuma sırası) meta bilgisi vardır.
-
EPUB/HTML: Akışkan (reflowable) metin; DOM ağacı, sınıf/id, CSS stilleri, section/article/figure semantik etiketleri ve link grafı.
-
LaTeX: Makro tabanlı üretim; \section, \subsection, \caption, \label–\ref, \bibliographystyle izleri; paket kullanımı (geometry, hyperref, cleveref…).
-
Markdown: Hafif işaretleme; başlık düzeyleri, kod blokları, link referansları; çoğunlukla üretim zincirinde HTML/LaTeX’e dönüştürülür.
Her biçim, farklı izler bırakır; çok formatlı bir tespit hattı, aynı içeriğin yayın zincirindeki evrimini de görünür kılar.
3) Bölüm Ağacı ve Başlık Ritmi: Omurganın Parmak İzi
Kopyacılar metni parafraz ederken, çoğu kez başlık hiyerarşisini korur. Format tabanlı yaklaşımlar:
-
Başlık düğümlerinden (H1–H6 / \section–\subsection) sıra kodu çıkarır.
-
Başlıkların gram uzunlukları, POS kalıpları ve metadiskur eşlikçileri (“Giriş”, “İlgili Çalışmalar”, “Sonuç”) birlikte değerlendirilir.
-
Aralık ritmi: Başlıklar arasındaki paragraf/sayfa sayısı; şekil–tablo araya girme düzeni.
Sonuçta, metin değişse bile omurga benzerliği yüksekse “yapısal kopya” şüphesi doğar.
4) Paragraf Şekli ve Satır Kırılım İmzaları: PDF’nin Fısıldadıkları
PDF’de her paragraf satır kırılım dizisiyle (line-break sequence) yaşar. Özellikle dar sütunlu dergi mizanpajlarında:
-
Satır sonu tireleme (hyphenation) sözlük ve satır genişliğiyle ilişkilidir; tekrarlayan tireleme paternleri güçlü bir izdir.
-
Kerning/ligature (fi, fl) izi; gömülü fontun kimliğiyle eşleşir.
-
Paragraf ilk satır girintisi, satır başı/dip boşluk ve sütun atlama ritmi; layout kopyasında korunur.
Parafraz yapanlar kelimeleri değiştirir ama PDF üretim zinciri aynı araç ve şablonu kullanıyorsa, bu izler sürer.
5) Şekil–Tablo–Denklem Yerleşimleri ve Alt Yazı Dili
Şekil ve tabloların:
-
Numaralandırma şeması (Şekil 1a, Tablo 2.1, Algoritma 3),
-
Çağrı biçimi (bkz., see Fig., cf. Tab.),
-
Alt yazı kalıpları (“Bu çalışmada…”, “Görselleştirme…”),
-
Yerleşim (sayfa üstü/altı, iki sütun genişliği, çevreleyen metin akışı),
karakteristik bir format parmak izi üretir. Özellikle LaTeX float yerleşimleri ve \label–\ref düzeni, kopyanın izini bırakır.
6) Kaynakça ve Atıf Paternleri: Stil, Dizi ve Hataların Gücü
Kaynakça formatı çoğu kez gözden kaçan ama çok kuvvetli bir kanıttır:
-
Stil: APA/IEEE/Chicago–Turabian vs. Ama asıl iz, stil içindeki varyantlardadır: tarih/sayı–cilt sıralaması, DOI gösterimi, URL tarihleri, yazar adlarının kısaltılması.
-
Dizi: Aynı referans alt kümeleri ve sıralaması (özellikle yanlış dizilen veya çift tekrar eden öğeler) güçlü bir eşleştiricidir.
-
Hata imzası: Kaynakça içinde aynı yazım hataları veya yanlış DOI; kopyada tekrar eder.
Metin parafraz edilse dahi, kaynakça format parmak izi değişmeden kalabilir.
7) Görsel Çerçeve ve Kapsayıcı Paternleri: HTML/EPUB’nin Sırları
EPUB/HTML’de görseller ve kod blokları sarmalayıcı (wrapper) içinde gelir:
-
class/id adlandırma dizgeleri (örn.
figure--wide,img-responsive,callout), -
Şablon kökeni (CMS temaları, Jekyll/Hugo, dergi CMS’leri) ve varsayılan boşluk–başlık stilleri,
-
Resim eşiği (srcset, lazy-loading, alt text kalıpları).
Kopyalanan yazılar, çoğu kez aynı şablon izlerini taşır; bu, kaynak–aktaran zincirini görünür kılar.
8) Erişilebilirlik Etiketleri ve Alt Metin (Alt Text) Dil İpuçları
Alt metinler çoğu zaman unutulan bir özgünlük göstergesidir:
-
Benzer uzunluk–cümle kalıbı, aynı niteleme sıfatları ve uzak açıdan–yakın çekim gibi betimleyici klişeler tekrar eder.
-
ARIA roller ve okuma sırası (reading order) hataları, aynı ihracat aracından gelen PDF’lerde aynıdır.
Kopya içerik, alt metni de taşır; bu, format tabanlı yakalamada altın değerdedir.
9) OCR ve Görünmez Katmanlar: Tarama İzinin Kanıt Gücü
Basılı içerikten türeyen PDF’lerde, OCR sürecinin bıraktığı artefaktlar (ş, ğ gibi karakterlerin tutarsız hatları, ligature ayrışmaları, satır sonu boşluk–tire dalgalanmaları) makine izidir. Aynı taranmış kaynak iki farklı çalışmada “farklı biçimlendirilmiş” görünse bile OCR artefakt imzası yakalanabilir. Bu, özellikle gizli intihal vakalarında çok etkili bir kanıttır.
10) LaTeX Makro ve Paket İzleri: Derin Yapının Dilini Okumak
LaTeX ile üretilen metinlerde:
-
Paket kümeleri (geometry, hyperref, cleveref, siunitx, caption, subcaption) ve sürüm notları,
-
Özel makrolar (\newcommand ile tanımlanan kalıplar),
-
BibTeX stil dosyası ve biçim varyantları,
-
Float yerleşim tercihleri (
[htbp]pattern’leri),
kopyada bire bir tekrar eder. Bir metnin LaTeX üretim izleri, parafraz edilse bile özgün yapıyı ele verir.
11) Markdown ve Statik Site Üreticilerinde (SSG) Tema Parmak İzleri
Jekyll, Hugo, Gatsby gibi araçlarla yayınlanan e-dergi/blog makalelerinde:
-
Front matter alanları (title, date, tags, layout),
-
Kısayol makroları (shortcodes) ve bileşen adları,
-
Tema isimleri, klasör yapısı ve asset yolları,
format parmak izi üretir. Aynı temayı ve bileşeni kullanan kopyalar, metne dokunsalar bile tema izinden yakalanır.
12) “Format + Semantik” Birleşimi: Çok Katmanlı Skorlamanın Tasarımı
Sadece format sinyali gürültüye açıktır (aynı dergi şablonunu meşru biçimde kullanan farklı yazarlar). Bu nedenle birleşik skor gerekir:
-
Yapı skoru (başlık ağacı, float ritmi, kaynakça paternleri),
-
Yerleşim skoru (PDF satır kırılım izleri, kerning/ligature imzaları),
-
Erişilebilirlik skoru (alt text, reading order, ARIA),
-
Semantik skoru (cümle/paragraf gömlemeleri, nadir metafor/örnek evreni eşleşmesi).
Eşikler alan–dergi–format bazında öğrenilerek ayarlanır; yanlış pozitifler itiraz ve kanıt sürecinde elenir.
13) Kanıt Paketleri: “Neden Şüpheleniyoruz?”u Görselleştirmek
Adil süreç için bulgular görünür olmalı:
-
Yan yana omurga karşılaştırması (başlık ağaçları, bölüm uzunlukları),
-
Float ısı haritası (Şekil/Tablo konumlarının sayfa–sütun dağılımı),
-
PDF satır kırılım dizileri (benzer tireleme–satır bitişleri),
-
Kaynakça patern kartı (stil varyantları, hata imzaları),
-
Alt metin yakınlıkları (cümle kalıpları, uzunluk–sıfat paterni),
-
Semantik eşleşen pasajlar (yan yana, kısa bağlamlarla).
Bu paket, “suçlama” değil açıklama ve düzeltme için kullanılır.
14) Yanlış Pozitif Yönetimi: Şablon Ortaklığı ve Alan Gelenekleri
Aynı dergi veya yayınevinin şablonunu kullanan tüm makalelerde bazı format paternleri ortaktır. Bu yüzden:
-
Alan–dergi–format üçlüsüne göre taban profiller çıkarılır; ortak kalıplar penalize edilmez.
-
Yazarın önceki çalışmaları ile üslup–format sürekliliği kontrol edilir (kendi kendine benzerlik doğal).
-
Küme temelli karar verilir: tek bir eşleşme değil, çoklu format sinyali + semantik birlikteliği aranır.
15) Erişilebilirlik, Mahremiyet ve Amaçla Sınırlılık
Format sinyalleri, çoğunlukla teknik meta veri ve mizanpaj bilgisi üzerinden gelir. Toplanan her veri:
-
Amaçla sınırlı olmalı (intihal analizi dışına taşmamalı),
-
Asgari düzeyde tutulmalı (gerekli sinyaller dışında saklanmamalı),
-
Anonimleştirilmiş raporlarla sunulmalı (yazar kişisel verileri korunmalı).
Erişilebilirlik verisi (alt text vb.) hassastır; eğitim amacıyla koçluk dilinde kullanılmalı, damgalamaya yol açmamalıdır.
16) Uygulama Boru Hattı: Çok Formatlı İçerikten Çok Katmanlı İmza
-
Yükleme/Toplama: PDF/EPUB/HTML kaynakları, LaTeX/Markdown varsa ham kaynak.
-
Ayrıştırma:
-
PDF → sayfa–satır–kelime koordinatları, font id’leri, ligature–kerning, reading order.
-
EPUB/HTML → DOM, class/id, CSS stil kümeleri, figure/caption/alt.
-
LaTeX → makro/paket tespiti, label–ref grafı, bibstil.
-
-
Öznitelik çıkarımı: Başlık ağacı, float ritmi, paragraf kırılım imzaları, alt text dil kalıpları, kaynakça formatları.
-
Eşleştirme ve skor: Benzerlik adayları → birleşik skor → eşik–profil normalizasyonu.
-
Kanıt paketleri ve panolar: Eğitmen/editör/uyum için rol bazlı görünümler; düzeltme akışları.
17) Örnek Olay A: Parafrazlı Makale, Aynı Omurga + Kaynakça Paterni
İki elektronik makale, metin düzeyinde orta yakınlık gösteriyor; yazar “genel bilgi” diyor. Format analizi; başlık ağacı, float yerleşimleri ve kaynakça hata imzasının neredeyse aynı olduğunu gösteriyor (aynı yanlış DOI, aynı URL erişim tarihi biçimi). Semantik–format birlikteliği nedeniyle düzeltme (ve gerekirse geri çekme) kararı destekleniyor.
18) Örnek Olay B: PDF Satır Kırılım İzlerinden Yakalanan Kopya
Bir rapor, başka bir kurumun PDF’inden parafraz edilmiş gibi görünüyor. Metin benzersiz sayılabilecek kadar değiştirilmiş. Ancak satır sonu tireleme–ligature ve sütun atlama ritmi bire bir. Üstelik “reading order” hatası aynı sayfada. Bu format izleri, kopyanın aynı şablondan üretildiğini ortaya koyuyor; yazar kaynak ve lisans beyanı ekliyor, bazı bölümleri yeniden yazıyor.
19) Örnek Olay C: LaTeX Makro İzleri ve Float Yerleşimi
İki farklı yazar, iki farklı konferansta benzer bir makale yayımlıyor. LaTeX kaynaklar incelendiğinde \newcommand ile tanımlanmış nadir bir makro ve \begin{algorithm}[H] kullanımı aynı; label–ref grafındaki numaralandırma hataları bile eşleşiyor. Format tabanlı kanıt, intihal şüphesini güçlendiriyor; itiraz süreciyle kaynağa atıf + kapsam farklılaştırma yoluna gidiliyor.
20) Eğitim ve Koçluk: Üretim Anında Etik Beyan
Yazar ve editör arayüzlerine üretim anında koçluk eklenebilir:
-
“Başlık ağacın X dergi profiline aşırı benzer—farklılaştırmak ister misin?”
-
“Alt metinde lisans/kredi eksik; şablon ekleyelim mi?”
-
“Kaynakça stilinde hatalı DOI paterni var; düzeltelim mi?”
Amaç yakalamadan önce önlemek, yazarı daha özgün bir kurguya ve doğru beyana yönlendirmektir.
21) Rol Bazlı Panolar: Editör, Uyum, Yazar, Okur
-
Editör: Küme bazlı format–semantik eşleşmeler, hızlı kanıt kartları, “düzeltme gönder” akışları.
-
Uyum/Hukuk: Lisans/kredi eksikleri, kaynakça–DOI hataları, geri çekme/güncelleme logları.
-
Yazar: Kendi metninin format profili, önceki çalışmalarıyla süreklilik; “risk azalt” önerileri.
-
Okur: Şeffaf düzeltme geçmişi ve kaynak zinciri görünümü (e-dergi politikasına bağlı).
22) 90–180 Günlük Yol Haritası: Pilot → Ayar → Ölçek
-
0–30 gün (Pilot kurgu): PDF/HTML ayrıştırıcılar; başlık ağacı ve kaynakça patern çıkarımı; kanıt kartı şablonu.
-
31–60 gün (Derinleşme): PDF satır kırılım/ligature izleri; float ritmi; alt text ve ARIA kalıpları; LaTeX paket/makro tespiti.
-
61–90 gün (Birleşik skor): Format + semantik skorlayıcı; alan–dergi–format profilleri; itiraz/düzeltme akışları.
-
91–120 gün (Koçluk ve eğitim): Üretim anında uyarılar; mikro eğitimler (kaynakça, alt text, lisans).
-
121–180 gün (Ölçek ve metrikler): Yanlış alarm optimizasyonu, şablon profil havuzu, şeffaf raporlama ve politika güncellemesi.
23) Sınırlar: Ortak Şablonlar, Derleme Araçları ve Benzer Kurgular
-
Aynı şablonu kullanan bağımsız çalışmalar benzer format izleri taşır; semantikle birleşmeden hüküm verilmemeli.
-
Aynı derleme araç zinciri (ör. kurumsal LaTeX sınıf dosyası) doğal benzerlik üretir; taban profil ile normalleştirilmeli.
-
Alanın geleneksel kurgusu (Giriş–Yöntem–Sonuç) meşrudur; format tabanlı skor özgül varyantlara (ör. alt başlık dizisi, float ritmi, kaynakça hatası) ağırlık vermelidir.
24) Gelecek Perspektifi: Format-İzli Provenans ve Orijinallik Özeti
-
Provenans damgası: PDF/EPUB’e gömülü, gizliliğe saygılı, anonim bir format-iz hash’i; yayın zinciri boyunca evrimi kaydeder.
-
Orijinallik özeti: Editöre/yazara; omurga özgünlüğü, float çeşitliliği, kaynakça özgünlük skoru, alt text farklılık özeti.
-
Şablon mimarisi koçu: Yeni makale oluşturulurken “format yakınlığı çok yüksek” uyarısı—yazara yapısal çeşitlendirme önerir.
Sonuç
Elektronik yayınlarda intihal tespiti, yalnız cümle benzerlik oranı üretmekten ibaret olamaz. Format tabanlı yaklaşım; başlık ağacı ve bölüm ritmi, PDF satır kırılım–ligature izleri, float yerleşim ve alt yazı dili, kaynakça paternleri, görsel kapsayıcıları ve erişilebilirlik etiketlerinin dil ipuçları gibi derin form sinyallerini semantik bulgularla birleştirerek açıklanabilir bir kanıt düzlemi kurar. Bu çerçeve, dört temel ilkeye dayanır:
-
Çok Katmanlı Okuma: İşaretleme–yerleşim–yapı–erişilebilirlik–kaynakça katmanları birlikte analiz edilir; tek format izi değil, küme halindeki sinyaller esas alınır.
-
Birleşik ve Alan-Duyarlı Skorlama: Format + semantik + erişilebilirlik + kaynakça paternleri, alan–dergi–format profilleriyle normalleştirilir; yanlış pozitifler düşürülür.
-
Açıklanabilir Kanıt ve Adil Süreç: Kanıt kartları; omurga karşılaştırması, float ısı haritaları, PDF satır kırılım dizileri, kaynakça hata imzaları ve alt text yakınlıklarını görsel olarak sunar. İlk ihlallerde düzeltme–beyan–krediöncelenir; tekrarda orantılı yaptırımlar.
-
Önleme ve Koçluk: Üretim anında format koçu, alt text/lisans şablonları, kaynakça doğrulayıcıları; yayınevi–yazar–okur üçgeninde şeffaf ve öğretici bir kültür inşa eder.
Bu yaklaşım hayata geçtiğinde, kopyacıların “metni parlatıp kurtulma” avantajı azalır. Çünkü form, parlatılsa bile iz bırakır. Editör, araştırmacı ve kurumlar kanıtlanabilir kararlar alır; yazarlar özgün kurgu ve doğru beyan ile güçlenir. Elektronik yayıncılık, hız ve erişilebilirlik kadar dürüstlük ve şeffaflıkla da anılır. Kısacası, metnin gölgesi olan formatgörünür kılındığında; intihal, en sevdiği saklanma yerini kaybeder.
No responses yet