... 我想问的是 既然是 集成scws 那么 1.有没有提供scws的api接口,实现短语分词功能 2.是否可以对scws自定义中文词典,方便扩展 [/quote] 目前没有直接支持自定义词典,而是直接读取 dict.utf8.xdb 你自己改词也必须转换成这个词典文...
很感谢,大致看了版主发布的scws的文件包,很规范,接口和扩展都做的很少,不过就是注释少了点,对我等菜鸟,看的不是很明白!:D 想请问版主一个问题,分词分出来后,怎么选择一个句子的关键词是哪些!
...作对象 XS.tokenizer XSTokenizer 自定义字段词法分析器接口 XSTokenizerFull 内置整值分词器 XSTokenizerNone 内置空分词器 XSTokenizerScws SCWS - 分词器(与搜索服务端通讯) XSTokenizerSplit 内置的分割分词器 XSTokenizerXlen ...
...API后面自己再简单加个判断?现在新版 1.3.1 提供了 scws 接口,只要把这些黑词加到自定义词典,并取一个独特的词性,那么就可以用 XSTokenizerScws::hasWord() 的功能来判断是否包含黑词?
...植做成 PHP 的扩展库,安装后即可在 php 中直接使用 scws 接口的函数来执行分词了,具体请参见演示代码。 这套分词目前的速度也超出了我的想象,实测 8万字节的中文文本在我的服务器上最快达 0.07秒(双核双CPU 3.0G),使用 ...
... 1.3.1 正式版,在 SDK 层面加入了许多用户诉求的 scws 分词接口,并修正了许多小 BUG,强烈建议所有用户升级到这个最新稳定版本。 [b]主要更新如下:[/b] 1. 增加基于搜索服务端的 XSTokenizerScws 便于直接使用 SCWS 的分词功能, ...
... 包 XS.tokenizer 继承关系 class XSTokenizerScws 实现接口 XSTokenizer 始于 1.3.1 版本 1.0.0 源代码 sdk/php/lib/XSTokenizer.class.php SCWS - 分词器(与搜索服务端通讯) Public 方法 隐去继承来的方法 名称描...
我使用scws的C版本提供的接口对省份、地市信息进行分词,发现分词的结果有时不是希望达到的结果。例如: 1 洛阳市廛河华林水席村 希望的结果为:洛阳市 廛 河 华林 水 席 村(词典中有洛阳市,市廛,河华,华林) 实...
...需要在 lib/ 目录下编写名为 XSTokenizerName 的分词类并实现接口 XSTokenizer,内置支持的分词器有以下几种: full 表示本字段的值整体作为一个检索词,像各种 ID 都适合这种情况 none 表示本字段没有任何词汇用于索引 split([ ]) ...
... scws 开发的全文搜索引擎解决方案,提供 PHP 语言的开发接口。 旨在帮助一般开发者针对既有的海量数据,快速而方便地建立自己的全文搜索引擎。全文检索可以帮助您降低服务器搜索负荷、极大程度的提高搜索速度和用户体...