noderīgi raksti

Kā izveidot meklējamu PDF arhīvu?

Šīs nedēļas tehnisko padomu ailē vietnē Goldavelez.com - turpiniet, cilvēki, vienmēr! - mēs palīdzam lasītājam, kuram ir pārāk daudz svarīgu rakstu, kuriem ir nepieciešams veikt maģisku pāreju uz digitālo pasauli. Vismaz tas izklausās daudz aizraujošāk nekā “Optical Character Recognition”, kas īsti nenovelk mēli.

Goldavelez.com lasītājs Fils raksta:

Paldies par laipnajiem vārdiem, Phil! Es priecājos palīdzēt - nevis glaimošanas dēļ, bet gan tāpēc, ka jūsu jautājums ir tāds, par kuru, iespējams, ir domājuši daudzi lasītāji (ieskaitot sevi). Man ir vesela kaudze lietu, kuras es labprāt pārietu no fiziskās pasaules uz digitālo pasauli, tāpēc es varu Marijas Kondo oriģinālos dokumentus un fotoattēlus aizmirst. Papīra kaudzes man prieku nerada.

Jums ir dažas iespējas, kuras varat izmēģināt. Es sāktu ar acīmredzamu: Google. Pieņemot, ka veidojat PDF failus, augšupielādējiet failus (-us) uz Google disku. Ar peles labo pogu noklikšķiniet uz jebkura atsevišķa PDF faila, novietojiet peles kursoru virs “Atvērt ar” un atlasiet “Google dokumenti”. Pēc tam Google mēģinās jūsu PDF failā palaist zināmu OCR, un jums vajadzētu būt iespējai saglabāt iegūto failu kā dokumentu. Pēc tam jūs varat meklēt šajā dokumentā (un visos citos pārveidotajos), izmantojot pašu Disku.

Jo vairāk es par to domāju, tomēr šis risinājums šķiet nedaudz neelastīgs, ņemot vērā, cik failu ir jāstrādā. Tā vietā es varētu izmēģināt tādu programmatūru kā TesseractStudio.Net - vai tikai Tesseract OCR, ja nebaidāties no komandrindas. Jums vajadzētu būt iespējai to izmantot, lai no failiem izveidotu OCR datus, un pēc tam tos varat meklēt tieši, izmantojot Windows vai macOS. OCRmyPDF ir vēl viena iespēja, kas ir līdzīga Tesseract OCR, taču atkal jūs spēlējat ar drukātajām komandām, lai OCR lietotu failiem. Nav GUI, kā arī nav (tieša) Windows atbalsta.

Ir arī papīrs - atvērtā koda dokumentu kataloģizācijas rīks, kas nāk ar iebūvētu OCR, kuru es noteikti apsvērtu, ņemot vērā, ka tas ir paredzēts kā viss vienā programmatūras programmatūra dokumentu arhivēšanai, šķirošanai un meklēšanai. Izklausās, ka tas varētu būt tieši tas, ko jūs meklējat.

Es neesmu izmantojis PDF-XChange Viewer, bet citi to ir ieteikuši kā opciju. Bezmaksas versijā jūsu PDF failos tiks ievietotas ūdenszīmes, taču tas var izveidot PDF failus no attēliem un, ja es esmu pareizs, pievienot OCR šiem visiem esošajiem PDF failiem. Ir vērts izpētīt, pat ja tas nav ideāls (bezmaksas) risinājums. Līdzīgi FreeOCR var uzņemt jūsu attēlus vai PDF failus, lietot OCR un eksportēt rezultātus kā vienkārša teksta failus vai Word dokumentus. Ja jūs neiebilstat, ka šādi meklējat caur saviem arhīviem, tā ir iespēja.

Runājot par maksas risinājumiem, vienmēr ir Adobe Acrobat Pro vai Foxit PhantomPDF . Abas ļaus jums pievienot OCR PDF failiem, un jums vajadzētu būt iespējai visus dokumentus apstrādāt kā lielu paketi (vai arī izveidot skriptu, kas to dara ar mapju vērtīgu saturu). Jūs, iespējams, pat to visu varēsit paveikt lietotņu bezmaksas izmēģinājuma laikā, ja tās neierobežos OCR iespējas. Esmu redzējis arī citus ar jūsu problēmu saistītos panākumus, izmantojot tādu lietotni kā PDF OCR, kas varētu būt lētāka alternatīva.

Tas ir viss, ko es domāju par galvas augšdaļu (un ar nelielu izpēti). Cerams, ka viens no šiem risinājumiem jums noderēs, nemaksājot par mazu laimi. Rakstiet atpakaļ un dariet man zināmu, kura lietotne jums darbojās vislabāk.

Tech 911 Vai jums ir kāds tehnoloģiju jautājums, kas jūs uzturētu naktī? Mēs labprāt uz to atbildētu! E pasts ar tēmas rindiņā ir norādīts “Tech 911”.