PDF (Portable Document Format), kurumsal dünyada raporların, beyaz kitapların, proje tekliflerinin, finansal sunumların ve kamu dokümanlarının “nihai sürüm” olarak dolaşıma çıktığı evrensel kap formattır. PDF’nin cazibesi yalnız taşınabilirlik ve sabit mizanpaj değildir; katmanlı yapısı, metin–görsel–vektör–yorum–form–erişilebilirlik etiketleri gibi çok sayıda bileşeni aynı dosyada bir arada tutabilmesidir. Ancak tam da bu zenginlik, görünmeyen metinle yapılan intihal için sızma kanalları açar. Bir yazar, fikir veya cümleleri bire bir kopyalayıp beyaz renkte, “görünmez” bir katmanda, sayfa dışında bırakılmış koordinatlarda, “render edilmeyen” modlarda ya da “alt katmanda” saklayabilir; rapor “orijinalmiş gibi” görünür ama arama motorları, kopyala–yapıştır işlemleri veya PDF erişilebilirlik ağaçları bu metni okuyabilir. Başka vakalarda ise tersine, içerik görüntü gibi davranır (örneğin taranmış bir PDF) fakat altına otomatik OCR ile metin gömülmüş ve bu metin başka bir kaynaktan taşınmıştır. Sonuç: ekranda görülen ile makineye okunan metin örtüşmez; eserin kaynağına ihanet eden, tespiti zorlaştırılmış bir intihal tablosu doğar.

1) PDF’nin İç Anatomisi: Neyi “Görürüz”, Neyi “Makine Görür”?
PDF bir nesne grafıdır: sayfalar (Pages/Page), içerik akışları (Content Streams), yazı tipleri (Fonts), görüntüler (XObjects), notlar/yorumlar (Annotations), form alanları (AcroForm), yapı etiketleri (StructTreeRoot), katmanlar (OCG) ve daha fazlası.
-
Görünen: Render edilen mizanpaj; kullanıcıya ekran/kağıt üzerinde gördüğü.
-
Makinenin gördüğü: İçerik akışlarında BT/ET blokları arasına yazılmış metin komutları (Tj, TJ), yazı tipi kodlamaları, ToUnicode eşlemeleri, “okuma sırası”, metin arama dizinleri.
İntihal manipülasyonları çoğu kez bu iki düzey arasındaki çatlağı kullanır: görünmeyeni “okunur” kılarak, görünür olanı “arıtılmış” göstererek ya da ikisini kasıtlı biçimde çakıştırmayarak.
2) Görünmeyen Metnin 7 Klasik Taktığı
-
Beyaz renkte metin: Sayfa zemininde beyaz (1,1,1) veya arka plan rengine eşit renkle yazı; gözle görünmez, seçince belirir.
-
Rendering mode (Tr=3) ile görünmezleştirme: Metin kontur/dolgu kapatılır; glyph çizilmez ama metin akışta durur.
-
Sıfır opaklık / aşırı transparanlık: Alpha 0; rasterlemede görünmez.
-
Sayfa dışı koordinatlar: Medya kutusu (MediaBox) dışına atılmış metin; “kopyala–yapıştır”ta yakalanır.
-
Clipping path ile kesme: Metin var ama görünür alanın dışında bırakılır.
-
0 pt font / mikroskobik boyut: Pixel yoğunluğunda kaybolur, makine okur.
-
Katman (OCG) hilesi: Optional Content Group üzerinde kapalı katmanda metin; bazı araçlar yine çıkarır.
3) OCR’ın Ters Yüzü: Görsel–Metin Çakışmasıyla Gizli İntihal
Taranmış raporlar ya da görsel ağırlıklı PDF’ler, “arama yapılabilsin” diye OCR metni altta taşır. Kötüye kullanımda:
-
Görsel, orijinal; alt metin ise başka bir kaynaktan bire bir kopya.
-
Görsel düzenlenmiş; alt metin “kaynak metin” olarak bırakılmış.
-
OCR üreticisinin post-processing aşamasında “doldurulan” metin, kasıtlı olarak başka rapordan alınmış.
Böylece ekran görüntüsü temiz, ama indekslenen metin intihal taşır.
4) Yazı Tipi Kodlamaları ve ToUnicode CMap: Sahte Kopyalama
PDF’de karakter kodları ile Unicode eşlemesi ToUnicode CMap üzerinden yapılır. Bazı vakalarda:
-
Ekranda “Özgün cümle” görünür; kopyala–yapıştır yaptığınızda başka bir cümle çıkar.
-
Ligatür, birleşik harf ve özel karakterler yanlış eşlenir; görünmeyen metin araya saklanır.
Bu teknik, arama motorlarını “yanlış metne” yönlendirerek gizli intihale hizmet eder.
5) Yapı Etiketleri (Tagged PDF) ve Erişilebilirlik Ağacının Suiistimali
Erişilebilir PDF’lerde StructTree içinde başlıklar, paragraflar, listeler, alt metinler bulunur. Suistimal:
-
Görünürdeki paragrafın farklı bir metinle etiketlenmesi; ekran okuyucu farklı, okur farklı içerik alır.
-
Tablo/figürlerde alt metin alanına kopya pasajlar gömülmesi.
-
“Artifact” işaretiyle bazı metinlerin render dışı bırakılıp, etikette tutulması.
6) Yorumlar, Biçimlendirilmiş Notlar ve Form Alanları: Gizli Depolar
-
Annotations: Kenar notları, vurgular, “pop-up” içerikler; PDF içinde metin barındırır.
-
AcroForm: Görünmez form alanlarına uzun metinler saklanabilir.
-
XMP metadata: Dublin Core, yaratıcı/başlık/açıklama alanları; kopya pasajlar buraya gömülür.
Çoğu kullanıcı görmez; crawler’lar ve metin çıkarıcılar görür.
7) Kırpılmış (CropBox) ve Sayfa Kutuları: Kadraj Oyunları
PDF sayfası MediaBox, CropBox, BleedBox, TrimBox gibi kutularla tanımlanır. Metni MediaBox içinde ama CropBox dışında bırakmak, ekranda gizler; metin çıkarım araçları yakalar. Kopya pasajlar bu kadraj oyunlarıyla taşınabilir.
8) Incremental Update, Nesne Akışları ve Sürüm Gölgeleme
PDF’ye incremental update ile yeni katman/nesneler eklenir; eski sürüm gölgede kalır. İntihalci:
-
İlk sürümde “temiz” metin, incremental katmanda “kopya” saklayabilir.
-
Object stream içinde sıkıştırılmış gizli metin taşır; basit çıkarıcılar atlar.
Tespit için tüm revizyonların açılıp diff’lenmesi gerekir.
9) Redaksiyon (Kara Bant) Hataları: Kapatılmış Metin, Açık İçerik
PDF’de redaksiyon doğru yapılmadıysa (yalnız siyah dikdörtgen çizildiyse), alttaki metin orada durur. Bazen redaksiyon katmanına “kendi metni”ni koyup altta kopyayı bırakmak da görülür. Bu, görünmeyen intihalin kazara bile yaşanabileceğini gösterir.
10) Tipografik Maskeleme: Sıfır Genişlikli Boşluklar, Harf Aralıkları
-
Zero-width space / joiners ile cümleler bölünür; kelime araması bozulur, ancak metin oradan taşınmıştır.
-
Aşırı kerning/harf aralığı ile dizilen metinde görsel–metin ayrışması yaşanır; intihal izleri gizlenir.
-
Seç–kopyala’da “bütün blok”la taşınan pasajlar; rapor başka yerde aynen belirir.
11) Tespit Mimarisi: “Görünür–Okunur” Tutarlılığı Ölçmek
Etkili tespit, iki dünyayı karşılaştırır:
-
Rastgeleleştirilmiş raster: PDF sayfasını yüksek DPI’da görüntü olarak render edip OCR ile metin çıkar.
-
Doğrudan çıkarım: İçerik akışlarından metni, konum kutularıyla çek.
Metin örtüşme skoru: Aynı koordinat pencerelerinde iki metin örtüşüyor mu? Büyük ayrışma görünmeyen metin izidir.
12) İçerik Akışı Analizi: BT/ET – Tj/TJ Komutlarının Dili
İçerik akışlarında:
-
BT/ET blokları içinde Tj/TJ komutları metni çizer.
-
Tr (text rendering mode) 3 ise dolgu/çizgi kapalı → görünmeyen metin adayı.
-
g/G/rg/RG/k/K renk operatörleri arka planla aynıysa görünmez.
-
cm ile ölçeksiz “0” boyuta itilen metin; Do ile üstte XObject; alt metin “saklanır”.
Araç, bu operatörleri kural temelli tarar ve aday blokları işaretler.
13) Katman (OCG) ve Görünürlük Durumları: “Katman Aç/Kapat”ın Forensiği
Optional Content Group (OCG) kullanan PDF’lerde katmanlar açılıp kapanabilir.
-
Aday: Metin OCG üzerinde ve varsayılan durumda kapalı.
-
Tespit: OCG sözlüğündeki
Usage,Intent,Viewbayrakları; bazı görüntüleyicilerin katman paneli. -
Forensik: Tüm katman açıkken çıkarılan metin ile render edileni karşılaştır.
14) Erişilebilirlik Ağaçları ve Okuma Sıraları: Çift Ağızlı Kılıç
Tagged PDF’de okuma sırası (Reading Order) görüntüdekinden farklı tutulmuş olabilir.
-
Aday sinyal: Ekranda olmayan bir paragrafın StructTree’de olması.
-
Denetim: Erişilebilirlik ağacındaki metinleri sayfa koordinatlarıyla eşleyip “gölgede kalan” düğümleri işaretlemek.
15) Annotations/Form/Metadata Taraması: “Kenar Notları”nın Peşinde
-
/Subtype: Highlight, FreeText, PopUp gibi not tiplerinin /Contents alanlarını tara.
-
AcroForm alan metni: Görünürlüğü 0’a çekilmiş veya görünmez katmanda saklı form alanları.
-
XMP:
dc:description,pdf:Keywords,custom:*alanları.
İntihal metinleri çoğu kez burada saklanır; çıkarılınca kanıt kartını güçlendirir.
16) OCR–Asıl Metin Çakışması: Fark Haritaları ve Renkli Kanıt
-
Yüksek DPI raster + OCR → Metin A
-
İçerik akışı çıkarımı → Metin B
Karşılaştırma: Konum kutusu bazında eşleştir; A≠B bölgelerini renk ısı haritasıyla görselleştir. -
Büyük blok ayrışması: görünmeyen metin ya da farklı kaynak sinyali.
-
Küçük ayrışmalar: Normal OCR hatası olabilir; eşiği alana göre ayarla.
17) Stilometri ve Özgünlük: PDF İçinde “Ton Kırılması”
Metin çıkarılınca, stilometri (cümle uzunluğu, bağlaç ritmi, jargon yoğunluğu) beklenmedik şekilde dalgalanıyorsa, görünmeyen metin blokları farklı kaynaklardan kolaj edilmiş olabilir. Stilometri tek başına hüküm verdirmez; ancak “nerede arayacağını” söyler.
18) Yapısal Eşleme: Başlık–Alt Başlık Ritmi ve Figür–Tablo Eşleri
Görünmeyen metni kullanan raporlar çoğu kez başlık ağacını ve figür–tablo çağrı düzenlerini taşır.
-
Caption metinleri ile paragraf içi atıfları (bkz. Şekil 2) eşleştir; görünmeyen blokla aynı kaynak çıkıyorsa güçlü kanıt.
19) Kanıt Kartı: “Neden Şüpheleniyoruz?”u Görselleştirmek
Kanıt kartı; tek bir yüzde değil, açıklanabilir bir anlatıdır:
-
Ekran görüntüsü vs. çıkarılan metin yan yana.
-
Renkli fark haritası: A (OCR) – B (akış) uyuşmazlıkları.
-
Operatör günlüğü: Şüpheli Tr, renk, clipping, OCG, ToUnicode bulguları.
-
Yorum/form/meta içeriği dökümü.
-
Öneriler: Atıf/kredi ekleme, metni düzeltme, katman/annotation temizliği, PDF/A’ya dönüştürme.
20) İtiraz ve Düzeltme: Adil Süreç ve Orantılılık
Yanlış pozitifler mümkündür (ör. erişilebilirlik için eklenen alternatif metinler). Süreç:
-
Bağlam talep edilir: Erişilebilirlik gereği gömülmüş alternatif metin mi, yoksa kasıtlı “gizli kopya” mı?
-
İlk vakalarda düzeltmeye dönüşüm (atıf, açıklama, PDF yeniden üretimi); tekrarda orantılı yaptırım (geri çekme, not düşme, yarışma dışı bırakma).
-
Kararlar gerekçeli yazılır; kanıt kartı ile birlikte arşivlenir.
21) Önleme: Üretim Zincirinde “Görünür–Okunur” Uyumunu Zorlamak
-
PDF/A ön kontrolü: Arşiv uyumlu sürümler, görünmez metin oyunlarını çoğunlukla engeller.
-
Preflight: Tr=3, 0 alfa, beyaz metin, CropBox/MediaBox sapmaları için kural seti.
-
Katman kısıtı: OCG kullanılıyorsa varsayılan görünür; kapalı katmanlar üretimde yasak.
-
Annotation/meta kapısı: Yayımdan önce yorum ve custom metadata taraması.
-
OCR hijyeni: OCR metni ile sayfa raster OCR karşılaştırması; büyük ayrışma → reddet.
22) Kurumsal Uygulamalar: Dergi, Ajans, Kamu Kurumu, Danışmanlık
-
Dergiler: Gönderim sistemine preflight kuralı; kanıt kartı üretimi; düzeltme/geri çekme politikası.
-
Ajans–danışmanlık: Teklif PDF’lerinde görünmez metin taraması; marka ve lisans kredi şeritlerinin zorunlu alan olması.
-
Kamu: Şeffaf raporlama; “Erişilebilirlik için eklenen alternatif metinler listesi” bölümü.
23) Eğitim ve Koçluk: Yazar–Editör–Tasarımcı Üçgeni
-
Yazar: “Erişilebilirlik alt metni nasıl yazılır?” kısa rehberi.
-
Editör: Preflight raporlarını okumayı öğrenir; kanıt kartı ile “nerede müdahale” edeceğini bilir.
-
Tasarımcı: Katman, clipping, transparanlık kullanımı için “etik sınırlar” eğitimi.
24) 30–60–120 Günlük Yol Haritası: Pilot → Ayar → Ölçek
-
0–30 gün (Pilot):
-
Raster+OCR vs. içerik akışı çıkarımı ile fark motoru.
-
Tr=3, beyaz renk, opaklık=0, CropBox sapmaları için kural tabanı.
-
Annotation/meta tarayıcısı ve basit kanıt kartı şablonu.
-
-
31–60 gün (Ayar):
-
OCG/katman analizörü; ToUnicode CMap kalite denetimi.
-
Erişilebilirlik ağacı–sayfa eşlemesi; alt metin kontrolü.
-
Eşik profilleri (alan/tür/dil), yanlış pozitif azaltma; itiraz–düzeltme akışı.
-
-
61–120 gün (Ölçek):
-
Preflight otomasyonu; PDF/A kapısı; sürüm diff ve incremental update çözücüsü.
-
Rol bazlı panolar (yazar/editör/uyum); vaka arşivi ve mikro eğitimler.
-
Ölçüm panosu: düzeltmeye dönüşüm, yanlış alarm, itiraz süresi.
-
25) Ölçüm: Yakalamanın Ötesinde Onarıma Odak
-
Düzeltmeye dönüşüm oranı: Şüpheli dosya → atıf/düzeltme/PDF yeniden üretimi.
-
Yanlış alarm oranı ve itiraz çözüm süresi.
-
Görünür–okunur tutarlılık skoru: Raster OCR vs. içerik akışı eşleşmesi.
-
Erişilebilirlik şeffaflığı: Alt metin beyanlarının kapsamı ve doğruluğu.
26) Sınırlar ve Gerçekçilik: Sıfır Yanlış Pozitif/Negatif Yok
-
Erişilebilirlik için iyi niyetle eklenen alternatif metin, bağlam dışı yorumlanabilir.
-
OCR hataları “fark haritası”nı şişirebilir; bu yüzden alan–dil–tipolojiye göre eşiği ayarlamak şarttır.
-
Hedef; “yakalamak” değil önlemek, öğretmek ve kanıtlanabilirlik sağlamaktır.
27) Gelecek Perspektifi: Provenans Damgası ve Orijinallik Özeti
-
Provenans damgası: İçerik akışlarına gömülü, gizliliğe saygılı, katman–renk–render modu karmasından üretilmiş bir format-iz hash’i.
-
Orijinallik özeti (PDF başına): Görünür–okunur tutarlılık skoru, şüpheli operatörler, OCG kullanımı, annotation/meta temizliği, alt metin beyanı; tek sayfalık özet.
-
Akıllı koçluk: PDF üretim eklentileri; “beyaz metin tespit edildi, gerçekten istiyor musun?—Erişilebilirlik içinse şu alanı doldur.”
Sonuç
“Görünmeyen metin”le yapılan intihal, PDF’nin katmanlı ve güçlü mimarisini yanlış amaç için kullanan, çoğu zaman niyetli ve bazen de kazaen gerçekleşen bir tağyirdir. Tespitin zorluğu, insanın gördüğü ile makinenin okuduğuarasındaki mesafenin büyütülmesindendir. Bu yazıda çizdiğimiz çerçeve; teknik derinlik, adil süreç ve kültürel dönüşümün birleştiği bütünleşik bir yolu öneriyor:
-
Teknik Omurga – Görünür/Okunur Tutarlılığı: Raster+OCR ve içerik akışı çıkarımını koordinat bazında karşılaştırarak fark haritası üretin. Tr=3, beyaz renk, opaklık=0, clipping, sayfa dışı koordinatlar, OCG, ToUnicode ve incremental update gibi izleri kural tabanlı tarayın. Annotations, form alanları ve XMP metadata’yı mutlaka süzün.
-
Açıklanabilir Kanıt – “Neden?” Sorusu İçin Kartlar: Yan yana ekran vs. çıkarılan metin, renkli fark ısı haritaları, operatör günlükleri, katman/erişilebilirlik ağacı dökümleri ve meta/annotation içerikleriyle kanıt kartıüretin. Kararı salt “yüzde”ye değil, çoklu sinyal birlikteliğine dayandırın.
-
Önleme – Üretim Zincirinde Hijyen: PDF/A kapısı, preflight kuralları, OCG/annotation/meta temizlik kapıları, OCR hijyeni ve erişilebilirlik beyan şablonlarıyla hata daha yayına çıkmadan önleyin. Üretim araçlarına akıllı koçluk ekleyin.
-
Adil Süreç – İtiraz ve Orantılılık: Erişilebilirlik amaçlı ek metinleri ve iyi niyetli vakaları öğretici düzeltmeyeçevirin; tekrarda orantılı yaptırımlar uygulayın. Kararları gerekçeli yazıp arşivleyin.
-
Ölçüm ve İyileştirme – Düzeltmeye Dönüşüm Odaklı Metrikler: Yakalamanın sayısıyla değil; düzeltmeye dönüşüm, yanlış alarm düşüşü, erişilebilirlik şeffaflığı ve görünür–okunur tutarlılık skoru ile başarıyı ölçün.
-
Kültür – Kaynakla Konuşan PDF: Alt metinler, caption’lar, kaynak ve lisans şeritleri görünür olsun. PDF yalnız “kapalı kutu” değil; kanıtlanabilir orijinallik taşıyan bir taşıyıcı hâline gelsin.
Bu yaklaşım uygulandığında, PDF rapor; “mizanpaj”ın ötesinde dürüst bir arayüz olur. Okur gördüğüne güvenir, makine okuduğunu doğrular; kurumlar hız ve erişilebilirlikle birlikte etik şeffaflık kazanır. Görünmeyen metin artık bir sığınak değil, kanıtın ışığında hızla görünür kılınan bir gölgeye dönüşür.
No responses yet