绕过COM,一个巧妙的思路

本文介绍了IFilter接口在索引服务中的应用,特别是如何从不同类型的文件中抽取文本以供索引和搜索。讨论了IFilter的实现方式及其与COM线程模型的关系,并提出了一种解决线程模型问题的方法。

Codeproject上有篇文章Using IFilter in C# ,在处理IFilter的Com问题思路不错。

IFilter接口由微软设计,便于在索引服务中使用。主要为了从文件抽取文本,从而使索引服务能够索引及搜索。一些版本的windows本身实现了若干Office文件的IFilter接口,也有一些用于其他文件类型---比较流行的Adobe PDF 过滤器---免费和商用的过滤器。IFilter接口主要用于抽取文件的重要部分,像Office文档、PDF文档等非文本文件,但也用于HTML、XML等文本文件。虽然IFilter接口通常用作从文档抽取文本,但是它广泛应用于搜索引擎。Windows桌面搜索就使用过滤器索引文件。

过滤器本质上是COM 对象,所以他们带有一些让我们又爱又恨的COM线程模型问题。一些过滤器标有STA(Adobe PDF filter),一些标有MTA(Microsoft XML filter),或两者皆有(Microsoft Office Filter)。这意味着MTA过滤器不能载入标有[STAThread]的C#线程,反之亦然。作者通过一种载入、使用过滤器的方法,不管是谁的线程模型来巧妙的绕过Com,从而避免了Com所带来的问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值