... dn 就是我自定义的词性。这样我在scws 分词后,程序中可以用来判断。 不知道是否可以目前? 感谢hightman 大哥 提供的那么好用的分词工具。
...C的服务端没有发现任何错误。 如果你的服务器装有GDB,可以试一下在GDB环境下面启动? 对于 stop 失败的情况你可以试试用 faststop 这样会对子进程强行发送 KILL 信号
[quote='hpxl' pid='116' dateline='1319506745'] 500万条数据可以分段来读取,比如每次10000条,就不会出现上面的php错误了。判断是不是某条数据是不是已经存在了,可以根据主键来判断是不是已存在,存在的跳过就可以了。例如: [php]$qu...
应该可以,但100的限制是给CACHE做准备的,也比较符合用户的需求。 您需要一次展示这么多搜索结果吗? 你可以试试 src/task.cc 中的 746 行: 746 if (limit > MAX_SEARCH_RESULT) limit = MAX_SEARCH_RESULT; 在行开头加上 // 然后重新编译...
这个xunsearch暂时还没有提供这项功能,但可以先变通的如下方式处理: 在提取API后面自己再简单加个判断?现在新版 1.3.1 提供了 scws 接口,只要把这些黑词加到自定义词典,并取一个独特的词性,那么就可以用 XSTokenizerScws::has...
Highyman: 能請問一下,我可以將 SCWS 用在繁體中文的分詞上嗎?如果可以,我應該如何產生繁體中文的分詞詞庫呢? 我預備使用 UTF-8 作為中文編碼而非 Big5。 謝謝你的分享。 Mark
...S 为了便于用户在安装完 `Xunsearch` 后可以通过服务端内置的 scws[1] 实现分词, 而不需要另外再安装 scws 的 php 扩展。从 `1.3.1` 版本起,`Xunsearch` 的 PHP-SDK 中加入 [XSTokenizerScws] 类,可通过搜索服务端执行分词...
...你用的是什么方式,是PHP还是c的API, set_dict 时的第二参数可以指定将词典读入内存的. [/quote] 安装了apache扩展,使用PHP进行调用,也可以设置读入内存? 如果可以的话,每次分词还要设置词典么? [/quote] 这个要的, 仅仅对...
http://www.ftphp.com/scws/demo/v4.php 在这可以查分词结果 用附带的工具 util/Quest.php 加上 --show-query 可以看实际拆分的语句,这样你就明了了。
...denied(C#13, localhost:8384) [/quote] 原因是防火墙的问题。 你可以先试 #setenforce 0 然后在打开你的搜索页,搜索看看,这时候能正常搜索了 那可以确定是防火墙的设置出了问题了 先把防火墙的设置改回来 #setenforce 1 然后再增加...