SQl Server 2008 FILESTREAM, службы индексирования и FTS

Мне нужно реализовать сервис для поиска PDF-файлов. Первоначально я начал использовать SQL Server 2008 FTS, но вскоре понял, что мои PDF-файлы должны храниться в самой БД. Затем мне указали на службы индексирования, а также на тип данных SQL 2008 FILESTREAM, чтобы я мог хранить PDF-файлы в файловой системе. Так как же эти три (Indexing Services, FTS и опция FILESTREAM) связаны друг с другом? Нужно ли мне использовать все три вместе, чтобы осуществить поиск?

Кроме того, обычно ли они включены в таких службах хостинга, как DiscountASP? Или мне следует подумать о переходе на Lucene.NET?


person Prabhu    schedule 12.10.2009    source источник


Ответы (2)


МЫ использовали PDF iFilter, который позволяет вам хранить PDF в БД, а затем выполнять FTS против него. ОДНАКО теперь мы конвертируем наши PDF-файлы в текст и сохраняем текст в полнотекстовом индексе. Это позволяет нам теперь хранить все наши документы (мы храним .doc, .pdf и т. д.) в одном индексе.

DiscountASP разрешает использование FTS/iFTS в размещенной базе данных.

person Coolcoder    schedule 05.11.2009

Если вы заранее знаете, что хотите найти (например, вы получаете сотни PDF-файлов в день, и вам нужно будет найти те, которые содержат определенные строки «известно до получения», вы можете сделать текстовую версию при получении, создать индексные записи для файл PDF, а затем выбросьте текст.

Если заранее не знать условий поиска, жизнь становится намного медленнее :( Есть программа PDF Search, которая утверждает, что выполняет полнотекстовый поиск в PDF-файлах. Мне не нужно было ее использовать, поэтому я не могу скажи как есть, но это здесь: http://www.getpdf.com/.

Надеюсь это поможет

person dcpking    schedule 15.10.2009