搜索

大约有 278 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.1948秒)

121.RE: 分词问题

更新时间:2010-10-14 21:10 t By hightman

...字,所以达不到“云“+”计算“的效果。 使用 txt 附加词典时请显式地先指定 xdb 词典,以便 txt 词典后生效。 $so->add_dict('dict.xdb', SCWS_XDICT_XDB); $so->add_dict('dict.txt', SCWS_XDICT_TXT); [color=red]$so->set_multi(3);[/color] .. 这样将会得到”云...

122.RE: 怎样才能 字母数字汉字组合 按照词典分成一个词语呢?

更新时间:2013-07-03 11:07 t By shuyinglee

昨天弄了一晚上, 因为我是写php的对C语言不熟系,研究了一下源代码,最终功夫不负有心人,成功的避过了中英文混合,使用字典中的词语分词,我用的是 scws-1.2.1.tar.bz2 这个版本,因为不能发附件,如果大家需要联系我: Ema...

123.PHP4版 简易中文分词(PSCWS) 第2/3版

发布时间:2007-06-06 09:06 t By hightman

...没有绝对的谁优谁劣,似乎半斤八两。 两者都是基于词典词频查询,推荐词典格式为 cdb,因为它在 PHP 中有捆绑而且同时支持 windows 和 *Unix* ,只需要在PHP编译时加入 --with-dba --with-cdb 即可,在 windows 中打开 php-dba.dll 扩展就行...

124.老大看看 做词典的时候总是 报 发现不了 tf idf 等

发布时间:2010-03-15 11:03 t By sblig

make_xdb_file.php [color=#FF0000]原[/color] for ($k = 0; $k < 0x40; $k++) { if (!isset($rec[$k])) continue; $cnt = 0; printf("Inserting [%02d/64] ... ", $k); foreach ($rec[$k] as $w => $v) { $flag = (isset($v['tf']) ? 0x01 : 0); if ($part) $flag |= 0x02; $data = pack('ffCa3', ...

125.scws1.2.2 php 扩展问题

发布时间:2013-10-13 02:10 t By kevinwang

... 扩展文件很小,调用php函数时候必须使用set_dict才能加载词典 但是有的服务器编译后感觉字典也被编译进去了这是怎么回事,即使不需要set_dict也可以分词 另外这种情况下,set_dict感觉和add_dict一样,我的词典和编译进去的那...

126.关于词典中的词性标注

发布时间:2007-06-09 12:06 t By hightman

由于词典条目多达26万条之巨,在整理的时候已经把很多明显不对的标注或词条清理了,但仍然肯定有很多错误的条目。 主要表现在不是词的列在词里,还有词性标注错误的。本词典中的标注使用的是北大版本的标注集(见附...

127.RE: 求TF/IDF算法(官方的计算器没有作用)

发布时间:2013-05-22 13:05 t By hightman

...不到分词,只是靠在一起时需要消岐才用得到。你自定义词典用不了要查查是什么别的原因。 通常问题: 1.词典写的字符集不对,比如把GBK当UTF-8了 2.词典更新后的修改时间由于某些原因比/tmp目录下生成的临时xdb还要旧,所以...

128.XSTokenizerScws::setDict

...s setDict(string $fpath, int $mode=NULL) $fpath string 服务端的词典路径 $mode int 词典类型, 常量: SCWS_XDICT_XDB|SCWS_XDICT_TXT|SCWS_XDICT_MEM {return} XSTokenizerScws 返回对象本身以支持串接操作 源码: sdk/php/lib/XSTokenizer.class.php#L283 (...

129.RE: 对医院的分词不太理想

更新时间:2010-09-07 18:09 t By hightman

...有个错误的词叫“民医院”!! 建议删除该词重新生成词典或,写一个附加词典标记为删除。内容如下,保存为名字 del.txt,然后在分词前加入一句 $scws->add_dict('/path/to/del.txt', SCWS_XDICT_TXT); 如果您不会制作词典可以从 http://www.ft...

130.XSTokenizerScws::addDict

...s addDict(string $fpath, int $mode=NULL) $fpath string 服务端的词典路径 $mode int 词典类型, 常量: SCWS_XDICT_XDB|SCWS_XDICT_TXT|SCWS_XDICT_MEM {return} XSTokenizerScws 返回对象本身以支持串接操作 源码: sdk/php/lib/XSTokenizer.class.php#L299 (...

  • 时间不限
  • 按相关性排序