November 5, 2007
谷歌输入法词典 与 我说话的习惯
新版谷歌输入法(1.0.23.40),图标变成了新的样式
。在翻查设置看看有没有新功能的时候,发现了一个以前没用过的旧功能,就是“导出用户词典”。
这个词点是很有意义的。因为它是可以在各地通过Google帐户自动同步的,所以基本上可以看出自己说话都习惯讲哪些词。
导出后,是一个扩展名为.dic的文本文件。每行用TAB分割为三列。用Excel可以导入处理,不过要先用Notepad另存为Unicode,否则会是乱码。Google的spreedsheets只支持逗号分隔的文件,所以改名成.cvs并用spreedsheets导入没成功。
这个表格第一列是词,第二列(估计)是词频,第三列是这个词的拼音拼法。按照词频倒排序可以看出最常说什么话,但是往往排在最前面的都是一个字的词。做个假设
长词汇使用的可能性低,但是却往往更能反映习惯。词长与词频的乘积可以作为“习惯的衡量指标”。
这样的话,在Excel表里处理一下,我的前二十位词汇如下,中规中矩,呵呵,估计老板看了会高兴。
的 产品 谢谢 数据 系统 问题 可以 这个 工作 客户 项目 信息 如果 现在 在 我们 没有 是 销售 进行
Filed by
charlie
at 1:17 am under 
[...] 谷歌拼音输入法的词典格式和分析方法,在前一篇中有所介绍。 [...]