0

Lógica Fuzzy em GED

Posted by Sandréa Moraes on quinta-feira, fevereiro 04, 2010 in , , , , ,


Olá Povo. Voltei.

Estava discutindo GED com a colega Rô Santos quando surgiu a menção à lógica Fuzzy.

Sabemos que alguns scanners realizam o OCR das páginas digitalizadas durante a entrada em um sistema de Gerenciamento Eletrônico de Documentos (GED).
Mas, dependendo do scanner que se tem, e do original capturado, o reconhecimento dos caracteres pode ser desastroso ou, na melhor das hipóteses, insatisfatório.

Se um documento estiver rasurado, amassado, borrado, ou se o scanner possuir um DPI abaixo de 300, provavelmente o resultado conterá palavras truncadas no documento gerado.
No caso do português é ainda pior... os Ç são confundidos com 6 ou Gs e a maior parte dos acentos é perdida.

Se os textos escaneados não forem editados e corrigidos antes de darem entrada no sistema de informação do tipo FTR (Full Text Retrieval - Recuperação de texto Completo) este terá a recuperação prejudicada. Isso porque a maioria das bases de dados utiliza o sistema booleano de lógica de busca.

Neste tipo de lógica, mesmo com a utilização de caracteres-coringa, você não irá recuperar todos os documentos pois ela é muito objetiva: ou você tem a palavra completa no texto. Ou tem parte dela. Ou não a tem. E ponto.

Para estes casos, scanners e programas dotados de recuperação com Lógica Fuzzy são os mais recomendados.

A lógica Fuzzy foi originalmente desenvolvida para criar inferências em sistemas computacionais onde a variável desejada poderia ter mais respostas do que apenas o 0 (Zero) e o 1, isto é, mais do que apenas o verdadeiro e o falso, incluindo assim algo como o talvez.

A Lógica fuzzy é mais usada em sistemas de controle que dirigem máquinas. Elas conseguem uma resposta desejada uma vez que seja dado um número de entradas do ambiente. Essas respostas (feeds) são conseguidas através de sensores que calculam um limiar aceitável para desencadear uma determinada ação. Um exemplo é o sinal de trânsito que fica verde ou vermelho dependendo do fluxo de automóveis ou de pedestres, ou as câmeras digitais que possuem auto-foco.

A Fuzzy Word Search, literalmente "pesquisa de palavra confusa" foi desenvolvida para encontrar palavras com grafia similar que foram incorretamente digitadas ou que por erro de conversão do OCR resultam em palavras parcialmente ilegíveis.

Assim, um sistema dotado desta ferramenta pode recuperar indistintamente os termos "Idéia", "Idea", "Ideia", "Idéa", "IdEa", "Idia" por exemplo, mesmo quando se digita errado...

Abaixo vai uma lista de softwares que incluem esta tecnologia e que podem ser levados em consideração quando sua biblioteca for criar seu sistema de GED:

Archivum: é um sistema completo de gerenciamento eletrônico de documentos. É pago, mas é nacional.

Laserfiche: o mais conhecido sistema de GED com lógica fuzzy. A recuperação dos documentos é muito boa.

NewSoft Presto! PageManager 6.0: sisteminha barato com boa recuperação.

Document Search List: neste site há uma lista de softwares, muitos dos quais são indicados como gratuitos.

Pra quem quiser saber mais sobre a lógica fuzzy em SRIs (Sistemas de Recuperação da Informação) sugiro as leituras baixo:

BRITTO Jr, A. Técnicas em Processamento e Análise de Documentos Manuscritos.




Wikipédia. Lógica difusa.

Mais indicações e comentários são bem-vindos.

|

Copyright © 2009 Sandrea's BiblioPage All rights reserved. Theme by Laptop Geek. | Bloggerized by FalconHive.