Good good study, day day up

aleung的学习笔记, aleung的idea

Bayesian过滤已经广泛用于邮件系统的anti-spam功能中,通过统计分析出spam邮件词语的统计特征,实现自动识别。

根据这个思路,也可以将bayesian过滤用在论坛的发言检查中,以减少版主工作量。

考虑到要易于与现有论坛系统集成,发言过滤器可以做成webservice之类的服务,提供两个功能调用:

  • void train(String content, boolean isMatch)
  • boolean filter(String content)

前者让发言过滤系统学习,分析content特征;后者让系统分析content是否应该被过滤,返回值也可以是一个浮点数,表示分析出是敏感内容的可能性(确定性)。

阅读全文 »

Mind map,中文翻译为”思维导图”。听起来有点玄乎,说白了就是以图像方式记录思路或者描述事物的一种方法。(看看下面的图就有直观了解了)。在我的理解中,mind map是辅助整理思路和思维扩展的一个工具,一方面以层次化的形式将思路条理化,另一方面能快速记录下头脑中闪现的想法,特别适合于头脑风暴的场合。

两年前看到有关mind map的介绍,当时非常感兴趣,跑去图书馆把Tony Buzan的书借来看。惭愧的是,书放到过期都没有看几页,因为对那些心理学的理论不感兴趣。Tony Buzan在书中把这个方法吹嘘得神乎其神,我总觉得他有黄婆卖瓜之嫌。Mind map从本质上与outline(大纲)差不多,它的很多长处用outline也可以实现。但他说到人的大脑对于文字、图像、声音是由不同的区域处理的,图像的方式可以刺激大脑的特定区域,比单纯文字要好,对此我是很有体会的,一向以来我都比较喜欢以画图的方式来思考问题。

当时试用过几款mind map软件,最好的应当算是MindManager了,但用了一段时间,没有养成习惯,也就没有感觉到什么特别的好处,还是放弃了。后来我在需要整理思路的时候都是采用outline:如果写文档,在word里面采用大纲视图;日常的笔记,我喜欢用CyberArticle,它是使用HTML格式的,用列表或者项目符号也很方便的组织大纲;palm上也有类似的工具,但用得不多。如果需要记录思维,而不希望因为记录的过程而束缚思路,我更习惯用纸和笔。

其实不是mind map不好,而是这些软件在人机交互界面上都未能突破电脑与纸笔之间的隔阂。用手写画,眼睛看着纸上的图像获得反馈,是我们最习惯的方式。使用电脑之后,中间环节插入到这个过程中,大脑需要处理如何进行电脑录入,特别是当软件设计得不好,操作复杂,或者响应速度慢时,反馈过程立马被打断了,造成了思维的障碍。从这个角度看,tablet PC应当是优于键盘鼠标输入的普通电脑的,以前我曾经写过这方面的想法

今天flyisland推荐的软件FreeMind,试用了一下,感觉很不错。

阅读全文 »

所谓树大招风,腾迅这回可是中招了,面对愤青们打着爱国主义和民族主义旗号的攻势,却是苦水只能往肚子里咽。QQ的主要用户群是青少年学生,正是最热血沸腾的年龄,看来这次事件对腾迅的影响不可谓不大。

看看QQ游戏里面都过滤些什么单词吧,在QQ安装目录里面找出COMToolKit.dll这个文件,用VC把它打开(或者其它的能查看资源的工具,实在没有,用UltraEdit也可以,不过会夹杂着很多乱码),就可以看到有两个叫做“DIRTYWORD”的资源,id分别为9001和9002,在鼠标右键菜单中选择导出,把它们存入文件,用文本编辑器打开,怎样,大开眼界吧?好多词,我们这些良民百姓都不知道有什么含意。

可以看看 http://forum.future.org.cn/showthread.php?p=618922的21楼(不知道最初出自哪里),有详细一点的介绍。作者是个反日派,他的结论也挺有意思:

从这个过滤词表看,可以得出几个结论:第一个结论,大家说话都不怎么流畅,全是他妈的弱势群体,谁也别笑话谁。以后坛子上的反腐斗士和自由派,别老拿这个来数落俺们反日派。俺们也互相体谅。第二个结论,政府对民族主义算是比较纵容的了,虽然也提防着,但主要也就提防大家上 街,网上骂骂,一般来说是安全的。第三个结论,别骂腾讯。尽管腾讯的发家有那么些不光彩的地方,但这事怪不了它。不负责任胡乱攻击只会给我们多树敌人。

最后一段是奉劝我们自己人的。第一句话是奉劝新网友的。新网友别每天就知道灌水起哄,“把腾讯移交有关部门处理”啥的,惹人家笑话。不管你将来准备加入什么思潮流派,第一步应该是了解自己的处境,别以为教科书上说你是国家的主人,你就真的信了。了解了自己的处境,才能改变它。第二句话是奉劝老网友的,过滤词什么的,大家在网上混那么多年的,都知道是谁干的,老虎谁都不敢打不敢骂,这也没什么丢脸的,不敢骂就不敢呗,抓住一只小猫暴扁干嘛?充英雄吗?表演自己的怯懦而已。

阅读全文 »

一直以来,在CTI领域语音应用的开发都是采用各厂商的专有技术的,每个平台厂商都伴随自己的平台推出一套语音业务开发的规范,有些是脚本式的语言,有些是图形化的流程,这些规范受限于平台,相互之间没有兼容性,基于这些专有规范开发出来的语音业务很难从一个厂商的平台移植到另一个厂商的平台。

另外一方面,这些专有的语音业务开发规范的体系是非开放性的,业务控制局限在语音平台内部,与外界系统进行交互只能通过有限的途径,例如访问数据库、数据访问网关,开发COM接口组件等。造成难于与外部系统有机集成,集成成本高。在业务开发上,也因为业务处理逻辑与用户交互控制混合在一起,使得复杂业务的开发难度和维护难度都比较高。

近年来,随着网络技术的发展,各种业务应用都纷纷往网络方向发展,充分利用internet的数据自由流动和协议标准化的优势,CTI技术与web技术融合的需求越来越大。基于web的各种开发技术也迅速发展并成熟,包括J2EE、.NET、WebService等等,web应用开发渐渐变得快捷而高效。另外一方面,随着手机、PDA等手持设备的发展,对于延伸使用者界面,多模式互动的需求越来越多,提供键盘、笔输入、语音等多种输入手段,各种文字、影音输出途径,语音应用和传统文字/图形应用的界限越来越模糊。

在这样的趋势下,业界研究推出了多种涉及语音技术的标准规范。其中,W3C(World Wide Web Consortium)走在前面,其下的语音浏览器工作组等多个工作组进行的标准规范制定工作都涉及了语音技术。目前,对于电话和语音应用领域,重要的规范有三个,分别为VoiceXML, CCXML(Call Control eXtensible Markup Language), SALT(Speech Application Language Tags)。

这三个规范都是基于XML的,这是因为XML作为一种可扩展的通用标记语言,有着标准化、结构化的特点,并且对于XML的生成、传输、解析、验证、查询都已经有一系列相当成熟的技术和编程开发包,存在着很大的优势。但XML本身并不说明什么,它只是用来描述规范的一种语言,支持XML跟支持VoiceXML、CCXML这些规范是完全两回事。

阅读全文 »

今天偶然发现,google搜索能够识别同义词。输入“优点”作为搜索关键字,它会帮你把带有“好处”这个关键字的页面都搜索出来。

阅读全文 »

最近两次启动windows 2000, 启动时间莫名其妙的长, 居然要5分钟, 我还以为死机了:(

实在忍受不了, 查看”事件管理器”, 发现有几个错误. 在网上搜索一下, 发现了一个好网站eventid.net, 可以查找到事件的详细解释和解决办法.

一查才知道, 原来好几个错误都是由于DNS没有正确设置引起的, 晕:( 昨天改过IP, 把DNS设错了, 居然会造成启动慢的问题.

阅读全文 »

Doxygen是一个很不错的文档生成程序,类似于JavaDoc的功能,但是能支持C++/C/Java和其他的好些语言。今天在使用的时候,发现doxygen不能处理带有中文的文件名或者路径,就把源代码下载回来,看看是什么问题。

问题很容易定位出来,又是unicode和字符集转换的问题,字符集真是让人头痛的东西:(。当在windows平台上运行时,它使用了WideCharToMultiByte来转换字符集,但没有判断当前locale,只是用了CP_ACP(ANSI)code page,故此对于中文就转换成为乱码了(其他multi-byte字符集也会有问题)。

本来想改的,发现doxygen底层用的都是QT的代码,什么QString, QCString,完全是自己独立的一套东西,好些地方似乎都没有考虑mbs字符集的问题,实在跟不下去了,也不知道它的国际化是怎么做的,KDE也是基于QT函数库的呀,也许是windows版本的问题?放弃,给doxygen作者写了个bug report,看看他会不会去修改吧。

ps.

忍不住又再看了一下代码:不从根本上解决问题,只做个临时解决方案,把code page写死为936(简体中文),该可以吧?谁知还是不行:( 再跟踪一下,发现这个程序一点都不i18n friendly,虽然内部使用unicode,但是输入/输出转换都只是按照ascii/Latin1编码来做转换,在英文环境下就正常,一旦使用了非拉丁字符集就出问题了。这样用unicode跟不用有什么区别啊?!

阅读全文 »

MicroDEM使用dbase来保存数据, 但一般通用的地理数据都是MIF格式较多。MicroDEM不支持import其他格式的数据。

其实MicroDEM中的dbase就是shp格式。数据可以使用GlobalMapper来转换, 读取mif文件, export vector data为shapefile, 会生成3个文件, 其中一个是dbf, MicroDEM可读取的格式.

阅读全文 »

图像格式介绍在网上有很多资料, 随便google一下都能找到. 这是我在论坛上回复别人的帖子, 顺手也帖到这儿.

这几种格式都是光栅图像格式(除了光栅格式还有一种是矢量格式), 描述的是图像点阵的色彩数据.

BMP格式是最简单的格式,基本就是图像点阵的内存拷贝。没有任何压缩,也无法表示格外的数据。现在很少用BMP来做图像数据交换了。

GIF和PNG都是索引色彩, 也就是不直接描述象素的颜色, 只是说这个点是几号颜色, 另外有个索引表(调色板)给出颜色号对应的RGB颜色。有简单的压缩算法,但这种压缩仅对于连续色彩的象素(例如大块色块的图形)才有效,适用于颜色有限的图像(如商业图形/地图/漫画), 对真彩色图像(如照片)不太合适. GIF的LZW压缩算法是有专利限制的(好像是在去年已经过期失效), 需要授权才能使用, 故此w3c组织另起炉灶订立PNG格式, 对于使用而言两者差不多.

JPG是有损压缩, 利用人眼对高频细节分辨不是很敏感的特性, 将数据量减少。当压缩率过大时, 会在图像色彩变化的边界出现马赛克的现象. 但是作有限度的压缩时, 图像质量损失并不明显, 往往不能察觉。它的压缩率是可以调节的,让制图者可以在图象质量与图像文件大小间取得一个平衡点,因此是很有用的一种格式, 基本上网上的照片都是用jpg格式.

阅读全文 »

今天抱着试试看的心态又一次登录blogger.com,在右侧栏看到了一小段文字,有什么gmail的字样,太兴奋了,我都没有来得及看清楚它写的是什么,迫不及待的点击进去——这就是传说中的gmail邀请啊!

不过可惜,注册不到我想要的sunnyday,好像它允许注册的名字一定要与blogger.com的账号名字有关联。我在blogger.com还有另外一个帐户,一定要好好维护着它,天天登录,看看什么时候可以再注册一个,哈哈!

Google的魅力真是无穷,测试中的email系统的账号也成了奇货可居的东西,还催生了一批gmail账号拍卖/交换网站。

如果下次再有人问你些stupid问题,你就把这个站点推荐给他吧:fucking google it yourself!

阅读全文 »