OCR Teknolojisi Dil Çeviri Geliştirmeye Yardımcı Olur

Aug 15, 2022 Mesaj bırakın

OCR nedir?

Optik Karakter tanıma (OCR), metin görüntülerini makine tarafından okunabilir metin formatına dönüştürme sürecini ifade eder. Örneğin, bir form veya makbuz tararsanız, bilgisayar taramayı bir görüntü dosyası olarak kaydeder. Bir metin düzenleyici kullanarak bir görüntü dosyasındaki metni düzenleyemez, arayamaz veya sayamazsınız. Ancak, görüntüleri metin belgelerine dönüştürmek ve içeriği metin verisi olarak depolamak için OCR'yi kullanabilirsiniz.

png

OCR neden bu kadar önemli?

Çoğu iş akışı, bilgilere basılı medya aracılığıyla erişmeyi içerir. Kağıt formlar, faturalar, taranmış yasal belgeler ve basılı sözleşmeler, iş sürecinin bir parçasıdır. Bu devasa belgeleri depolamak ve yönetmek çok fazla zaman ve alan gerektirir. Kağıtsız belge yönetimine yönelik eğilime rağmen, belgeleri görüntülere taramak hâlâ zordur. Süreç insan müdahalesi gerektirir, hantal ve yavaştır.

Ek olarak, belge içeriklerinin sayısallaştırılması, gizli metin içeren görüntü dosyalarına yol açabilir. Kelime işlemciler, görüntülerdeki metni metin belgeleriyle aynı şekilde işleyemez. OCR, metin görüntülerini diğer ticari yazılımlar tarafından analiz edilebilecek metin verilerine dönüştürerek bu sorunu çözer. Daha sonra verileri analiz etmek, operasyonları iyileştirmek, süreçleri otomatikleştirmek ve üretkenliği artırmak için kullanabilirsiniz.

7d9be6872456af033802d073206010b

OCR nasıl çalışır?


Görüntü edinme

Tarayıcılar belgeleri okur ve bu belgeleri ikili verilere dönüştürür. OCR yazılımı, taranan görüntüyü analiz ederek açık renkli alanları arka plan ve koyu renkli alanları metin olarak sınıflandırır.

ön işleme

OCR yazılımı önce görüntüyü temizler ve okumaya hazırlanırken hataları giderir. İşte bunun için kullanılan bazı temizleme teknikleri:

Hizalama sorunlarını gidermek için tarama sırasında taranan belgelerin hafif ofset düzeltmesi veya eğriliği.

Kumlanmayı giderin, dijital görüntülerdeki benekleri kaldırın veya metin görüntülerinin kenarlarını düzeltin.

Bir görüntüdeki kenarlıkları ve çizgileri temizleyin.

Çok Dilde OCR Teknolojisi ile Komut Dosyası Tanıma

Metin tanıma

OCR yazılımı tarafından metin tanıma için kullanılan iki ana OCR algoritması veya yazılım işlemi türü, model eşleştirme ve özellik çıkarmadır.


Desen eşleştirme

Desen eşleştirme, bir karakterin görüntüsünü (glif olarak adlandırılır) ayırır ve onu depolanan benzer gliflerle karşılaştırır. Desen eşleştirme, yalnızca depolanan glifin giriş glifiyle benzer bir yazı tipine ve boyutuna sahip olması durumunda çalışır. Bu yöntem, bilinen yazı tipleriyle girilen belgelerin taranmış görüntüleri için iyi çalışır.


Özellik çıkarma

Özellik çıkarma, glifleri çizgiler, kapalı döngüler, çizgi yönü ve çizgi odağı gibi özelliklere ayırır veya ayrıştırır. Ardından, saklanan çeşitli glifler arasında en iyi veya en yakın eşleşmeyi bulmak için bu özellikleri kullanır.


Rötuş

Analizden sonra, sistem çıkarılan metin verilerini bilgisayarlı dosyalara dönüştürür. Bazı OCR sistemleri, taranan belgelerin tarama öncesi ve sonrası sürümlerini içeren açıklamalı PDF dosyaları oluşturabilir.