TECNOLOGIA OCR
Então gente, faz algumas semanas, eu comecei meu modesto projeto OCR.
Ele possui um módulo de aprendizado que me permite [Ô]ensinar[Ô] o sistema, e ele ir se adequando conforme minha vontade. Ele ainda está em desenvolvimento, mas já dá pra fazer testes e estou conseguindo ótimos resultados (mesmo com textos escritos a mão... claro que precisei ensinar pra ele a grafia da minha letra antes). Acredito que conseguirei um resultado muito legal quando acabar.
Só que eu comecei esse projeto, sem ter dado uma olhada no mercado atual primeiro. Tem uns 5 anos e a minha experiência com OCR foi horrÃvel. Muitos erros grosseiros, páginas com um pouco de sombra já não lia nada direito. Contrastes pequenos impossibilitavam a leitura, a página um pouco torta já acaba com minhas chances...
Só hoje, depois de gastar algumas semanas nesse projeto, resolvi dar uma olhada no mercado atual. E a impressão que tive, é que os produtos hoje em dia, atendem 100%. Eu até baixei um app do Google Translate, o tradutor. Ele possui um recurso que pela própria câmera do celular, em tempo real, ele já traduz automaticamente tudo. Numa velocidade que achei bem impressionante, sendo que ele ainda traduz o texto tirado da imagem.
Agora to com aquela sensação [Ô]ah, to reinventando a roda... melhor deixar pra lá[Ô].
A pergunta então é:
Será que vale investir tempo e energia desenvolvendo uma ferramenta como essa ou o mercado já tá plenamente desenvolvido nesse quesito? Até tá sendo divertido fazer ele, mas nessa de só ficar fazendo projeto divertido, sem retorno financeiro... que me faz andar de ônibus até hoje...
Obrigado a quem responder!
Ele possui um módulo de aprendizado que me permite [Ô]ensinar[Ô] o sistema, e ele ir se adequando conforme minha vontade. Ele ainda está em desenvolvimento, mas já dá pra fazer testes e estou conseguindo ótimos resultados (mesmo com textos escritos a mão... claro que precisei ensinar pra ele a grafia da minha letra antes). Acredito que conseguirei um resultado muito legal quando acabar.
Só que eu comecei esse projeto, sem ter dado uma olhada no mercado atual primeiro. Tem uns 5 anos e a minha experiência com OCR foi horrÃvel. Muitos erros grosseiros, páginas com um pouco de sombra já não lia nada direito. Contrastes pequenos impossibilitavam a leitura, a página um pouco torta já acaba com minhas chances...
Só hoje, depois de gastar algumas semanas nesse projeto, resolvi dar uma olhada no mercado atual. E a impressão que tive, é que os produtos hoje em dia, atendem 100%. Eu até baixei um app do Google Translate, o tradutor. Ele possui um recurso que pela própria câmera do celular, em tempo real, ele já traduz automaticamente tudo. Numa velocidade que achei bem impressionante, sendo que ele ainda traduz o texto tirado da imagem.
Agora to com aquela sensação [Ô]ah, to reinventando a roda... melhor deixar pra lá[Ô].
A pergunta então é:
Será que vale investir tempo e energia desenvolvendo uma ferramenta como essa ou o mercado já tá plenamente desenvolvido nesse quesito? Até tá sendo divertido fazer ele, mas nessa de só ficar fazendo projeto divertido, sem retorno financeiro... que me faz andar de ônibus até hoje...
Obrigado a quem responder!
Bom, se você começou um projeto desses sem consultar o mercado antes é porque estava querendo um meio para se aventurar. Sendo assim, se for apenas pra ter uma aprendizado e tornar isso como um diferencial para o seu currÃculo, acho muito bacana. Agora, se já existem milhares de ferramentas gratuitas no mercado que já fazem isso, pra que reinventar a roda? Partindo pra um outro cenário, eu vejo muita gente criando os seu próprios frameworks para persistência de dados sendo que já existem milhares deles gratuitamente e que atendem perfeitamente qualquer tipo de projeto. Acho que tudo depende do que você realmente quer alcançar. Fazer apenas por fazer, não acho legal. O lance é ter ideia do que está fazendo e de onde quer chegar.
Valeu cara, você sempre é bem lúcido nas respostas.
[Ô]O lance é ter ideia do que está fazendo e de onde quer chegar[Ô].
Decididamente o OCR deixou de ser um problema. Caracteres hoje em dia são fáceis de se ler. Mas a partir do meu código, eu creio ser possÃvel evoluir para identificar qualquer tipo de objeto (desde que você ensine antes). Acho que isso pode expandir o seu uso. Por exemplo, para verificar as respostas no cartão de resposta do ENEM, sem necessitar de um alinhamento milimétrico. Ou pegar formulários escritos a mão, e passar para um banco de dados... fazer buscas de imagens parecidas, não necessariamente tendo a mesma composição de pixel.
Tá sabendo se existe já algo parecido? Eu dei uma procurada e não vi nada muito desse tipo.
Quando a versão do OCR tiver funcionando, eu faço um video e posto aqui, caso queira ver o funcionamento (e se não for proibido no fórum). Aà depois é evoluir para reconhecer outras coisas, até o rosto de uma pessoa talvez... é o mesmo modelo matemático.(apesar de que muitos OCRs, usam conceito de balanceamento geometrico para determinar o caractere... aà eu já acho gambiarrada)
[Ô]O lance é ter ideia do que está fazendo e de onde quer chegar[Ô].
Decididamente o OCR deixou de ser um problema. Caracteres hoje em dia são fáceis de se ler. Mas a partir do meu código, eu creio ser possÃvel evoluir para identificar qualquer tipo de objeto (desde que você ensine antes). Acho que isso pode expandir o seu uso. Por exemplo, para verificar as respostas no cartão de resposta do ENEM, sem necessitar de um alinhamento milimétrico. Ou pegar formulários escritos a mão, e passar para um banco de dados... fazer buscas de imagens parecidas, não necessariamente tendo a mesma composição de pixel.
Tá sabendo se existe já algo parecido? Eu dei uma procurada e não vi nada muito desse tipo.
Quando a versão do OCR tiver funcionando, eu faço um video e posto aqui, caso queira ver o funcionamento (e se não for proibido no fórum). Aà depois é evoluir para reconhecer outras coisas, até o rosto de uma pessoa talvez... é o mesmo modelo matemático.(apesar de que muitos OCRs, usam conceito de balanceamento geometrico para determinar o caractere... aà eu já acho gambiarrada)
Todo carro precisa de roda, certo? A Pirelli fabrica pneus, certo? Qual a vantagem da Goodyear, Toyo, michelin fabricar pneus? Eu vejo desta mesma forma, levando em consideração que os grandes já disseram (creio que Bill Gates e outros repetiram): Vamos vender aquilo que ele já tem, mostrar que ele precisa daquilo e que só nós podemos oferecer para ele. Para que uma pessoa vai querer uma TV nova se ele já tem uma TV em casa? Lojista diz: Mas o nosso não é mais LCD, é Led, dura mais, a imagem é melhor, o tamanho é melhor, da para ligar mais aparelhos e pode ser usado como monitor do seu computador. Nossos projetos tem que ter uma melhorada, e claro, disfarçar aquilo o que o dele já faz e dar um charme ao nosso mostrando que o nosso já faz melhor, que existe uma [Ô]garantia[Ô] que o gratuito talvez não tenha. As vezes da uma incrementada trazendo algumas funções e mostrando o suporte que talvez que os gratuitos não dão.
Já que você gosta dessas paradas, você poderia desenvolver um projeto que pudesse ler os captchas de alguns sites importantes e disponibilizar para o vbMania. Tenho certeza que o pessoal se amarraria. Um bom começo seria para regularização de CPF:
http://www.receita.fazenda.gov.br/aplicacoes/atcta/cpf/consultapublica.asp
http://www.receita.fazenda.gov.br/aplicacoes/atcta/cpf/consultapublica.asp
A ideia era deixar o tópico aberto até eu acabar o algoritmo e mostrar pra vocês. Mas como to com um trabalho freelancer pra fazer, acho que terei que adiar.
Fecho esse, quando acabar eu crio outro.
Fecho esse, quando acabar eu crio outro.
Tópico encerrado , respostas não são mais permitidas