Grazie, proprio queste cose cercavo!xyz ha scritto:In rete si trovano diversi programmi che esaminano le immagini e le raddrizzano. Ad esempio questo che usa la libreria OpenCV:
Riconoscere le righe storte e raddrizzarle
Moderatore:
Paolino
Mi chiedo se non ti convenga usare un OCR della pagina.
Se le immagini sono buone, ti trovi non solo le righe tutte diritte, ma la paossibilità di editare, formattare, reimpaginare agevolmente, ed anche hai la verifica delle parole in lingua, con il solo programma, (io usai "Abby fine reader").
qua ce n'è uno per esempio online, link
saluti
Se le immagini sono buone, ti trovi non solo le righe tutte diritte, ma la paossibilità di editare, formattare, reimpaginare agevolmente, ed anche hai la verifica delle parole in lingua, con il solo programma, (io usai "Abby fine reader").
qua ce n'è uno per esempio online, link
saluti
Come OCR open source esiste Tesseract usato da Google per la ricerca sui libri. Le ultime versioni hanno aggiunto una rete neuronale per migliorare il riconoscimento dei caratteri:
https://github.com/tesseract-ocr/tesseract
https://github.com/tesseract-ocr/tesseract
Un chiarimento per tutti: il mio problema non viene dal correggere poche pagine, per le quali non serve certo perderci il sonno per raddrizzarle ma sistemare le centinaia di pagine di libri presenti in rete che, pur validi nonostante gli anni e spesso i decenni che hanno sulle spalle, sono stati scanditi in maniera pietosa, perlopiù da studenti che, presi dall'urgenza dei loro esami, avevano in testa tutto tranne che l'eleganza delle loro fotocopie o il loro essere riprese perfettamente dritte.
Se ti appoggiassi alle applicazioni della piattaforma Google, potresti usare per esempio le API NLP (Natural Language Processing), con le quali potresti semplicemente "estrarre" tutte le stringhe di testo dall'immagine.
A questo punto, usando Scala, potresti generare tutte le trasformazioni che vuoi. Puoi, ad esempio estrarre tutte le occorrenze di una specifica parola, o stringa all'interno di n testo, che sia lungo quanto vuoi.
io lo faccio quasi quotidianamente, anche se non ho mai applicato le api NLP, ma ci sono tutorial molto chiari. In particolare si usa un algoritmo che si chiama "MapReduce" che è stato concepito proprio per questo genere di applicazioni ed infatti è molto efficiente per l'ordinamento di dati.
Se specificassi chiaramente quali sono le attività che devi fare su questi testi, potremo essere piu utili.
Se vuoi posso farti vedere parte dei sorgenti che uso, ma sono in un linguaggio di programmazione che si chiama Scala.
Fammi sapere.
Saluti
A questo punto, usando Scala, potresti generare tutte le trasformazioni che vuoi. Puoi, ad esempio estrarre tutte le occorrenze di una specifica parola, o stringa all'interno di n testo, che sia lungo quanto vuoi.
io lo faccio quasi quotidianamente, anche se non ho mai applicato le api NLP, ma ci sono tutorial molto chiari. In particolare si usa un algoritmo che si chiama "MapReduce" che è stato concepito proprio per questo genere di applicazioni ed infatti è molto efficiente per l'ordinamento di dati.
Se specificassi chiaramente quali sono le attività che devi fare su questi testi, potremo essere piu utili.
Se vuoi posso farti vedere parte dei sorgenti che uso, ma sono in un linguaggio di programmazione che si chiama Scala.
Fammi sapere.
Saluti











