Google désormais capable de faire de la reconnaissance de caractère dans un document scanné
![]()
Google viens de communiquer sur son blog officiel, sa capacité à désormais indexer un document scanné donc une image qui contiens du texte, en se basant sur la technique OCR à savoir de la reconnaissance de caractères.
La nouvelle pourrait presque paraître anodine puisque c’est en fait des documents aux formats PDF qui se trouvent dans les résultats de recherche. Le format PDF est indexé par Google depuis plusieurs années mais lorsqu’il s’agit de document “textuels”. Un document scanné, est donc une image qui pour l’oeil humain reviens sensiblement au même que du texte pur, mais pour les algorithmes informatiques une image est aujourd’hui quasiment incompréhensible.
La technique de reconnaissance de caractère n’est pas non plus nouvelle, puisque votre vieux scanner était déjà livré avec un logiciel d’OCR. Mais notez bien que le fait nouveau est que désormais Google appliquera cette technique aux documents PDF.
Sachant que de plus en plus de sociétés utilisent des solutions fax “virtuelles” se basant sur le format PDF il n’est pas impossible de voir ressurgir quelques documents privés voir confidentiels.
Pour exemple, le blog de Google donne quelques requêtes sur lesquelles le premier résultat démontre cette nouveauté.
Plus d’infos sur le blog de Google.
Commentaires
Quelque chose à dire ?

