中科院ICTCLAS词典介绍 _ 路由器设置|192.168.1.1|无线路由器设置|192.168.0.1

中科院ICTCLAS词典介绍

中科院ICTCLAS词典解析程序 C# 代码

作者：宁夏大学张冬 2006.12.29

中科院ICTCLAS词典采取了2进制的存储方式

对其它开发者使用造成了一些困扰我写了一个解析程序希望对大家有所帮助可以在
http://gforge.osdn.net.cn/projects/xunlong/ 下载

1 解析ICTCLAS的词典首先要建立一个字符对照表

因为词典中是按照每个字的顺序来存放词条但词典中没有提供字的直接信息但是经过研

究我们可以发现 6768 正好是 gb2312 中汉字的个数
经过验证发现词典的字出现的位置对应于从 1 ---6768 汉字出现的位置

2 数据存储的结构

使用UltraEdit 打开词典我们可以看到

1F 00 00 00 04 00 00 00 03 00 00 00 03 00 00 00 40 A1 A2

它的标志的数据每4个字节存放

其中iF 00 00 00 代表此字后面所拥有的词条的数量
其后是词条信息
04 00 00 00 代表出现频率
03 00 00 00 词长按找所拥有的字节数计算
03 00 00 00 代表词性
40 A1 A2 这个是中文的 GB2312 编码容易解析

没有出现词条的字使用 00 00 00 00 来占位 (和汉字对照表相关)

3 对字符标志的解析
直接的像 iF 00 00 00 这样的是不能使用的它的存储过程是采取了反向排序

存放
iF 00 00 00
[1] [2] [3] [4]

重新合成16进制的时候是
[4][3][2][1]

然后把得到的16进制表达串转换成为 int 就可以得到具体数值了

4 操作的时候顺次读取
a 记录一个标志每处理完一个字 +1 然后这个标志直接在汉字对照表中得出对

应的中文
b 先读取4位得到此字所含有的词条个数
c 如果是 00 00 00 00 则返回步骤a
d 按照 b 得到的词条个数建立一个循环来处理每个词条
e 读取4位得到频率
f 读取4位得到词长
g 读取4位得到词性
h 根据 f 得到的词长读取词长的长度得到词条
g 把得到词条的字符还原为中文字符串
I 返回 a

5 要对修改过的数据进行保存反向执行步骤4就可以了

本文地址：http://www.45fan.com/dnjc/69391.html

解决360浏览器打不开网页显示正在解析主	OPENGL的版本解析
《设计模式解析》第三部分知识要点	如何使用SAAJ解决SOA集成问题？
解析VC中的消息	VC++6中的指针介绍
《设计模式解析》第5章知识点介绍	Js+XML的操作方法分析
怎么样使用XML解析技术？	解析WINS的方法步骤

45fan.com - 路饭网

中科院ICTCLAS词典介绍

Tags：解析中科院 ICTCLAS

45fan.com - 路饭网

中科院ICTCLAS词典介绍

Tags： 解析 中科院 ICTCLAS

Tags：解析中科院 ICTCLAS