Bayesian过滤已经广泛用于邮件系统的anti-spam功能中,通过统计分析出spam邮件词语的统计特征,实现自动识别。
根据这个思路,也可以将bayesian过滤用在论坛的发言检查中,以减少版主工作量。
考虑到要易于与现有论坛系统集成,发言过滤器可以做成webservice之类的服务,提供两个功能调用:
- void train(String content, boolean isMatch)
- boolean filter(String content)
前者让发言过滤系统学习,分析content特征;后者让系统分析content是否应该被过滤,返回值也可以是一个浮点数,表示分析出是敏感内容的可能性(确定性)。