Pagina 1 di 2
Codifica caratteri da documento PDF

Inviato:
21 ott 2024, 20:43
da mario_maggi
Ciao.
Non riesco a fare copia/incolla da un documento PDF - probabilmente turco - che leggo perfettamente. Ho provato ad importarlo in Excel specificando varie codifiche, senza riuscirci. Anche copiandolo sul blocco note non funziona. Quando incollo il testo originale:
This approach gives you all the advantages
appare così:
Thi
sappr
oachgi
vesyoual
lt
headvant
ages
Mi date p.f. una dritta per risolvere? Grazie!
Ciao,
Mario
Re: Codifica caratteri da documento PDF

Inviato:
21 ott 2024, 20:57
da venanzio
Prova a impostare nel blocco note (ti consiglio notepad ++ che è serio)
a mostrare tutti i caratteri anche quelli nascosti.
Sospetto ci siano degli "a capo" in mezzo a quel testo tipo: LF CR eredità delle telescriventi Line feed e carriage return per la gente normale i caratteri invio.
In ogni caso la mossa di copiarlo prima sul blocco note è vincente in quanto gli fai perdere ogni formattazione oppure per fare lo stesso direttamente in excel shift+ctrl+v.
purtroppo ho paura che comunque quegli "return" te li dovrai cancellare a mano.
Re: Codifica caratteri da documento PDF

Inviato:
21 ott 2024, 21:11
da mario_maggi
Ahimè, Venanzio, grazie per la brutta notizia.
Speravo di non dover stampare 300 pagine di manuali tecnici per poi scannerarle e passarle all'OCR.
Se non arrivano suggerimenti più entusiasmanti, vedrò di chiedere a chi-so-io che me lo risolve di certo.

Re: Codifica caratteri da documento PDF

Inviato:
21 ott 2024, 21:13
da venanzio
da openoffice
Re: Codifica caratteri da documento PDF

Inviato:
21 ott 2024, 21:17
da venanzio
mario_maggi ha scritto:Ahimè, Venanzio, grazie per la brutta notizia.
Speravo di non dover stampare 300 pagine di manuali tecnici per poi scannerarle e passarle all'OCR.
Se non arrivano suggerimenti più entusiasmanti, vedrò di chiedere a chi-so-io che me lo risolve di certo.

prova a convertire il pdf in word, aprendolo in word o con servizi online tipo ilovepdf oppure con pdf24...
purtroppo è un problema che ho affrontato molte volte...
La fregatura nel tuo caso e che certe parole sono spezzate !!! quindi anche volendo scrivere un programmino in python.. come si distinguono le parole spezzate dalle parole staccate ?
si potrebbero confrontare con un dizionario... si può fare... ma che palle ahhahaha
menomale che sono uscito dal mondo dell'informatica

Re: Codifica caratteri da documento PDF

Inviato:
21 ott 2024, 21:45
da mario_maggi
Grazie, Venanzio, per l'ottimo consiglio!
Con
http://www.ilovepdf.com ho risolto brillantemente, aprendo il pdf che ha codifica strana e trasformandolo online in Word.
Eccellente!
Ciao
Mario
Re: Codifica caratteri da documento PDF

Inviato:
21 ott 2024, 21:51
da venanzio
eh vedi a volte scoperte di siti/servizi banali così ti salvano la vita...
tipo c'è google che ha un sacco di funzioni di ricerca anche geografica che molti ignorano (tipo prendere elenchi e trovare i posti etc..)
Re: Codifica caratteri da documento PDF

Inviato:
21 ott 2024, 21:56
da mario_maggi
Vero,
avevo provato anche Google Translate che traduceva abbastanza bene il testo con tanti "a capo" dall'inglese all'italiano, ma c'erano ancora troppi errori, e poi a me serviva in inglese.
Ciao
Mario
Re: Codifica caratteri da documento PDF

Inviato:
22 ott 2024, 6:41
da EcoTan
i dati contenuti nella Certificazione Unica, che viene inviata all’Agenzia delle entrate dai sostituti d’imposta: ad esempio, i dati dei familiari
a carico, i redditi di lavoro dipendente o di pensione, le ritenute Irpef, le trattenute di addizionale regionale e comunale, il credito
d’imposta APE, i compensi di lavoro autonomo occasionale, i dati delle locazioni brevi;
Questo lo ho preso dal PDF ufficiale selezionando col mouse e copincollando con CTRL+C, CTRL+V. (Sistema WIN7)
Re: Codifica caratteri da documento PDF

Inviato:
22 ott 2024, 10:34
da GioArca67
Non credo si possa parlare di "codifica" di caratteri, forse meglio di struttura del testo?