我需要索引一长串文档(主要是msoffice格式、pdf),并执行全文搜索和支持版本控制。
我读过关于lucene的文章,但它似乎是一个完整的解决方案,有人知道商业完整索引器吗?
对于版本控制,请使用git或mercurial。
对于"全文搜索",我发现了一些链接:
http://zez.org/article/view/83/
http://www.phpriot.com/articles/zend-search-lucene
您可以尝试Recognition Server,它是一款高容量的OCR、文档转换和索引软件。http://www.abbyy.com/recognition_server/
该软件创建可搜索的数字档案。您可以下载试用版并免费试用