متأسفانه راه درستی برای حل این مشکل (در تمام حالتها) وجود نداره.
ایراد اینجاست که سازندهٔ این PDF، تصویر اسکنشده رو بعنوان یک object، و متن OCR شده رو بعنوان یک آبجکت (منتها مخفی) دیگه روی هم قرار داده. اینجوری هم اطلاعات صفحهٔ اصلی حفظ شدهن، هم متن قابل جستجو و انتخاب کردنه.
اما اگر لایهٔ اول رو حذف و لایهٔ دوم رو نمایان بکنی، خیلی از اطلاعات (مثلاً حاشیهٔ یک جدول) از بین میرن (چون اونها توسط OCR تبدیل نشدهن).
برای مشخص شدن منظورم یهسری عکس میذارم (که با برنامهٔ Acrobat Pro درست شدهن). باید گزینهای که در عکس مشخص شده رو انتخاب بکنید برای دسترسی به ابزارهایی که object ـها رو تغییر میدن:
عکس زیر رو در نظر بگیرید:
من object شامل پسزمینه رو با کمک ابزار فوق کمی جابهجا کردهم که نتیجهش شده این:
منتها آبجکت دوم (شامل متن، منتها مخفی) هنوز سر جاشه! میشه با ابزار Select انتخابش کرد:
و بعد گفت که تمام متن رو Underline بکنه، که نتیجهش میشه این:
اگر برای کاربرد شما این مناسبه، با کمک Acrobat Pro میتونید از تکتک صفحات لایهٔ پسزمینه رو حذف و لایهٔ متن رو نمایان بکنید (احتمالاً اکروبات قابل اسکریپتشدن هم هست که بشه این کار رو اتوماتیک انجام داد)، منتها این کار باعث از دست دادن اطلاعاتی بعضاً مهم (مثل جدول در اینجا) میشه که ممکنه خیلی مطلوب نباشه.