搜索

大约有 90 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0987秒)

31.RE: 关于词典中的词性标注

发布时间:2009-08-06 00:08 t By hightman

单字标为 @ 是以前遗留下来的, 未确定词性, 还有一部分被标为 un 了, 建议把 un 改为 '@' ,否则可能导致散字自动聚合成2元分词时会不聚合.

32.scws分词乱码问题,求解

发布时间:2012-07-17 16:07 t By wainilxx7

我用的是scws[PHP-5.4.x (40KB,VC9,NTS)] 分词模块。其中的代码我都没改。我对“调用 segment 方法执行词汇切割”进行分词分词结果为“Array ( [0] => 璋 [1] => 冪 [2] => 敤 [3] => segment [4] => 鏂 [5] => 规 [6] => 硶 [7] => 鎵 [8] => ц [9] =>  [10]...

33.RE: 怎样才能 字母数字汉字组合 按照词典分成一个词语呢?

更新时间:2013-07-03 11:07 t By shuyinglee

...负有心人,成功的避过了中英文混合,使用字典中的词语分词,我用的是 scws-1.2.1.tar.bz2 这个版本,因为不能发附件,如果大家需要联系我: Email: shuyinglee@126.com[hr] 使用方法: 1.To patch tar xfvj scws-1.2.1.tar.bz2 cd scws-1.2.1 patch ...

34.RE: Hightman您好,我的分词怎么不对啊

更新时间:2010-08-19 15:08 t By assad

...情况,在本地,我测试了一下,程序没半点问题,能正常分词 我用FTP传到服务器上,却不行了 说明一下:所有文件编码都GBK,但是传到FTP上,用浏览器打开,却成了UTF-8的编码了,显示出乱码了! 不管怎么去设置,每次打开...

35.xdb词典 导入导出 问题

发布时间:2010-12-30 17:12 t By tecs27

按“说明”里的方法 ,我在CMD里做了如下输入 ,能运行,但是导不出内容来: 怎么回事呢?能正常运行分词的功能。 F:\phpStudy\PHP5> php F:\www\test\pscws23\XDB-IO\dump_xdb_file.php F:\www\test\pscws23\XDB-IO\dictxdb C:\xx.txt 请教HM,谢谢!

36.RE: [特别发布] 纯PHP编写的xdb词典导入导出工具!!

发布时间:2010-03-29 17:03 t By sdzhxl

最近在做个项目,用到了分词,找了一下,发现这个,很好. 遇到一个问题, 命令导出xdb到txt,只导出了这个 # WORD TF IDF ATTR 请问这是咋回事

37.RE: [特别发布] 纯PHP编写的xdb词典导入导出工具!!

发布时间:2009-07-19 11:07 t By heraldboy

还有就是内存的问题,因为我希望在服务器端有个自动生成词库的功能,命令行方式不是很方便。 主要是用机器先自动分词,人工发现不合理,再把新词增加进去。

38.RE:1251

发布时间:2008-04-26 08:04 t By hightman

繁体分词演示: [url]http://www.hightman.cn/demo/scws/v48.cht.php[/url] 引擎本身不需要更改, 只需要将rules.utf8.ini和dict.utf8.xdb改为繁体的词典即可. 词典制作参见相关代码里的工具 scws-1.0 里包含了词典制作工具. 顺便奉上之前整理制作的...

39.[特别提供] 纯PHP编写的sqlite词典工具!!

更新时间:2010-07-08 22:07 t By limaoxiang

...项目,希望更多的人能有用。 原因:我希望给网站提供分词功能,但是,我只能用php方式,也不能修改服务器的设置(合租的服务器,windows环境),所以我只能用scws23了,但是词库我希望自己修改添加,但是XDB,这个格式我用...

40.使用自定义词库的时候,部分词会丢失

更新时间:2014-04-18 17:04 t By tianly

...是SCWS-1.2.2 我用自己的词库替换了dict.utf8.xdb,然后尝试分词“朝鲜近日播放的一个纪录片中,发现”,发现“纪录片中”在分词结果中丢失了 Array ( [word] => 朝鲜 [off] => 0 [len] => 6 [idf] => 0 [attr] => @ ) Array ( [word] => 近日 [off] => 6 ...

  • 时间不限
  • 按相关性排序