...直接放進postgres裡面, 讓它也能夠有中文分詞的能力? 我知道Bamboo那邊好像已經有這方面的插件: http://code.google.com/p/nlpbamboo/wiki/TSearch2 但是我需要的是繁體中文的中文分詞, 所以就來這裡問問有沒有方法? 或是有沒有這方面的...
...要的语词,$tokenizer->getResult能获取到所有分词的结果,不知道这个问题的原因是怎么产生的。请指点一下。 以下是我的字典定义 # WORD TF IDF ATTR # —————————————————— 2d 50.0 50.0 n 3d 50.0 50.0 n 3G 50.0 50.0 n
...xunsearch安装正常,检测的时候有一个缓存模块的warning 不知道是啥情况呀?[hr] 呃 发现必须的加 -c gbk 由于我使用的putty设置的是utf8的原因, 虽然显示有点不正常,但加上 -c gbk 就可以了
...还有,在实际应用中,是不是不用管词频的具体值,只用知道其大小关系就行了? PS:看到之前有的发贴问类似的问题,得到答案说词重是对词频取1000000的对数,我试了一下是不对的! 本人刚接触分词,请多多指教
首先惭愧今天才知道scws这么好的项目。。 -________- 。。 最近有个PHP项目需要用到中文分词。。辗转很久来到了这里。。 在本机安装也很顺利,。 不过。。编码用的UTF8 按照文档里面的demo也自己做个小东西。。试试。。。...
...----------------------- 那么PC-B,php-sdk中的应用,调用 它怎么知道是哪一台装了xunsearch的? 或者说肿么让B的php-sdk去调用A的xunsearch?
不知道是不是一个BUG, 调用clean()清空索引时,名字“db_o”无法清理。 我测试了四五次了,每次都是 db_o这个无法清理,并且占用空间。 清理前: [code] 360M /data/xunsearch/data/db_product/db 2.9G /data/xunsearch/data/db_product/db_a 2.0G /d...
...会 > 添加成功并且不会有任何冲突提醒。所以除非您明确知道此为新文档,否则建议使用 > [更新文档](index.update)。 > > 此外,如果您自行扩展了 [XSDocument],请使用您自定定义的文档类创建对象。 参考代码如下: ~~~ [php] $data = a...
...词只是其中一个环节?daemon server也是embed啊。 另外不知道xdb和xtree性能差距有多大?xdb格式没有装入内存,只是在分词过程中去词典文件中查找,每一次分词都要read一次磁盘。xdb全部装入内存采用xtree结构存储,28万词典会占...