-
Notifications
You must be signed in to change notification settings - Fork 6
/
Copy pathscel2txt.py
executable file
·173 lines (153 loc) · 5.93 KB
/
scel2txt.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
# -*- encoding:utf-8 -*-
import binascii
import struct
import sys
import pdb
import os
class Scel2Txt(object):
#搜狗的scel词库就是保存的文本的unicode编码,每两个字节一个字符(中文汉字或者英文字母)
#找出其每部分的偏移位置即可
#主要两部分
#1.全局拼音表,貌似是所有的拼音组合,字典序
# 格式为(index,len,pinyin)的列表
# index: 两个字节的整数 代表这个拼音的索引
# len: 两个字节的整数 拼音的字节长度
# pinyin: 当前的拼音,每个字符两个字节,总长len
#
#2.汉语词组表
# 格式为(same,py_table_len,py_table,{word_len,word,ext_len,ext})的一个列表
# same: 两个字节 整数 同音词数量
# py_table_len: 两个字节 整数
# py_table: 整数列表,每个整数两个字节,每个整数代表一个拼音的索引
#
# word_len:两个字节 整数 代表中文词组字节数长度
# word: 中文词组,每个中文汉字两个字节,总长度word_len
# ext_len: 两个字节 整数 代表扩展信息的长度,好像都是10
# ext: 扩展信息 前两个字节是一个整数(不知道是不是词频) 后八个字节全是0
#
# {word_len,word,ext_len,ext} 一共重复same次 同音词 相同拼音表
def __init__(self):
#拼音表偏移,
self.startPy = 0x1540;
#汉语词组表偏移
self.startChinese = 0x2628;
#全局拼音表
self.GPy_Table ={}
#解析结果
#元组(词频,拼音,中文词组)的列表
self.GTable = []
def byte2str(self, data):
'''将原始字节码转为字符串'''
i = 0;
length = len(data)
ret = u''
while i < length:
x = data[i] + data[i+1]
t = unichr(struct.unpack('H',x)[0])
if t == u'\r':
ret += u'\n'
elif t != u' ':
ret += t
i += 2
return ret
def getPyTable(self, data):
#获取拼音表
if data[0:4] != "\x9D\x01\x00\x00":
return None
data = data[4:]
pos = 0
length = len(data)
while pos < length:
index = struct.unpack('H',data[pos]+data[pos+1])[0]
#print index,
pos += 2
l = struct.unpack('H',data[pos]+data[pos+1])[0]
#print l,
pos += 2
py = self.byte2str(data[pos:pos+l])
#print py
self.GPy_Table[index]=py
pos += l
def getWordPy(self, data):
#获取一个词组的拼音
pos = 0
length = len(data)
ret = u''
while pos < length:
index = struct.unpack('H',data[pos]+data[pos+1])[0]
ret += self.GPy_Table[index]
pos += 2
return ret
def getWord(self, data):
#获取一个词组
pos = 0
length = len(data)
ret = u''
while pos < length:
index = struct.unpack('H',data[pos]+data[pos+1])[0]
ret += GPy_Table[index]
pos += 2
return ret
def getChinese(self, data):
#读取中文表
#pdb.set_trace()
pos = 0
length = len(data)
while pos < length:
#同音词数量
same = struct.unpack('H',data[pos]+data[pos+1])[0]
#print '[same]:',same,
#拼音索引表长度
pos += 2
py_table_len = struct.unpack('H',data[pos]+data[pos+1])[0]
#拼音索引表
pos += 2
py = self.getWordPy(data[pos: pos+py_table_len])
#中文词组
pos += py_table_len
for i in xrange(same):
#中文词组长度
c_len = struct.unpack('H',data[pos]+data[pos+1])[0]
#中文词组
pos += 2
word = self.byte2str(data[pos: pos + c_len])
#扩展数据长度
pos += c_len
ext_len = struct.unpack('H',data[pos]+data[pos+1])[0]
#词频
pos += 2
count = struct.unpack('H',data[pos]+data[pos+1])[0]
#保存
self.GTable.append((count,py,word))
#到下个词的偏移位置
pos += ext_len
def deal(self, file_name):
self.GTable = []
print '-'*60
with open(file_name,'rb') as fin:
data = fin.read()
if data[0:12] !="\x40\x15\x00\x00\x44\x43\x53\x01\x01\x00\x00\x00":
print "确认你选择的是搜狗(.scel)词库?"
sys.exit(0)
#pdb.set_trace()
# print "词库名:" ,byte2str(data[0x130:0x338]).encode("utf8")#.encode('GB18030')
# print "词库类型:" ,byte2str(data[0x338:0x540]).encode("utf8")#.encode('GB18030')
# print "描述信息:" ,byte2str(data[0x540:0xd40]).encode("utf8")#.encode('GB18030')
# print "词库示例:",byte2str(data[0xd40:startPy]).encode("utf8")#.encode('GB18030')
self.getPyTable(data[self.startPy:self.startChinese])
self.getChinese(data[self.startChinese:])
if __name__ == '__main__':
#将要转换的词库添加在这里就可以了
scel_list = [os.path.join("./scel", i) for i in os.listdir("./scel")]
_file_path_ = scel_list
# _file_path_ = [u"高等院校词库.scel"]
scel2txt = Scel2Txt()
for _file in _file_path_:
scel2txt.deal(_file)
#保存结果
# result = map(lambda x: unicode(x[1]+"`1"+x[2]+"`1"+str(x[0])).encode("utf8"), scel2txt.GTable)
result = map(
lambda x: unicode(x[2]).encode(
"utf8"), scel2txt.GTable)
with open(_file.replace(".scel", ".txt"), "w") as fout:
fout.write("\n".join(result))