谷歌输入法词典 与 我说话的习惯

新版谷歌输入法(1.0.23.40),图标变成了新的样式谷歌输入法。在翻查设置看看有没有新功能的时候,发现了一个以前没用过的旧功能,就是“导出用户词典”。

这个词点是很有意义的。因为它是可以在各地通过Google帐户自动同步的,所以基本上可以看出自己说话都习惯讲哪些词。

导出后,是一个扩展名为.dic的文本文件。每行用TAB分割为三列。用Excel可以导入处理,不过要先用Notepad另存为Unicode,否则会是乱码。Google的spreedsheets只支持逗号分隔的文件,所以改名成.cvs并用spreedsheets导入没成功。

这个表格第一列是词,第二列(估计)是词频,第三列是这个词的拼音拼法。按照词频倒排序可以看出最常说什么话,但是往往排在最前面的都是一个字的词。做个假设

长词汇使用的可能性低,但是却往往更能反映习惯。词长与词频的乘积可以作为“习惯的衡量指标”。

这样的话,在Excel表里处理一下,我的前二十位词汇如下,中规中矩,呵呵,估计老板看了会高兴。

的
产品
谢谢
数据
系统
问题
可以
这个
工作
客户
项目
信息
如果
现在
在
我们
没有
是
销售
进行

One Response to “谷歌输入法词典 与 我说话的习惯”

  1. March 4th, 2008 | 9:00 am

    [...] 谷歌拼音输入法的词典格式和分析方法,在前一篇中有所介绍。 [...]

Leave a reply

Additional comments powered by BackType

Random posts

  • 奥运门票中签,78%,人品爆发
  • 贝尔斯坦服务器维护
  • I am Charlie Zhu
  • Lucene for Information Retrieval kicked off
  • 回龙观煤气公司