搜索

大约有 50 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.3889秒)

21.RE: 第四版遇到()和中英文混合分詞的問題。

更新时间:2009-06-16 00:06 t By JamesKG

[quote='hightman' pid='3145' dateline='1244985795'] 楼上你的情况是因为你对API使用不正确, scws_get_result 应该循环调用 while ($words = scws_get_result($sh)) { foreach ($words as $word) { print_r($word); } } 此外, 繁体词库很不完善, 缺词太...

22.RE: 第四版遇到()和中英文混合分词的问题。

更新时间:2009-06-14 03:06 t By JamesKG

...遇到相同的問題。 不過我數字可以,但是[color=#0000CD]英文[/color]不能。 我是使用[color=#FF0000]繁體字庫[/color]。 版本是:php_scws.dll(2)/Windows/PHP 5.2.x [php] [/php] 結果在下面: [code] 原始文字:這個文件是為了測試...

23.英文模糊搜索问题

发布时间:2013-07-31 10:07 t By homingway

各位达人们,请问xs的英文模糊匹配怎么做?之前好像也有人发过贴,就是类似mysql like的效果,但是没有回复。 我自己曾尝试过几个做法,但都失败了 1. 利用xs自带的scws,这个英文明显是根据空格分词的,所以达不到效果 2...

24.一个疑问……

发布时间:2007-11-28 22:11 t By 逍遥小妖

...似乎特别的窄…… 对于一个页面来说,通常含有数字、英文英文标点、中文标点、中文等文字要素(可阅读部分,HTML已过滤),视情况而定,搜索引擎还有可能抓出含有乱码的片段。 但是SCWS分词时似乎要求字符串中只能有...

25.scws分词碰到连字符的词处理的问题

发布时间:2010-06-23 10:06 t By nickflyer

我在自己的网站上使用scws做分词,当文章中有类似PC-BSD之类有连字符的英文词时,都分成类“PC - BSD”,但这是个软件名,本不应分开,英文中加-号的一般都视为一个词,按理说不应分开的,有什么方法解决吗?

26.RE: 怎样才能 字母数字汉字组合 按照词典分成一个词语呢?

更新时间:2013-07-03 11:07 t By shuyinglee

...究了一下源代码,最终功夫不负有心人,成功的避过了中英文混合,使用字典中的词语分词,我用的是 scws-1.2.1.tar.bz2 这个版本,因为不能发附件,如果大家需要联系我: Email: shuyinglee@126.com[hr] 使用方法: 1.To patch tar xfvj sc...

27.发现有几种情况会导致分词不准确?

发布时间:2011-09-15 14:09 t By 逆雪寒

scws分词不正确的情况 1、中文夹杂连续两个以上英文或数字(例如:程jj序ii员e 正常,程jjj序ii员e 不正常) 2、英文数字组合中,同时含有连续一个以上英文或数字的组合(例如:w1156k 正常,w16ky不正常) 3、含有任意一个...

28.我对切词尝试做了下功能修改

更新时间:2013-12-27 20:12 t By linqingtao

...使用后发现有几个地方和自己的需求不符合, 1)、中英文混合的 英文超过2个字就会被切割,不管词典里面有没有这个数据,比如词典里面有 “ABC支持开源" , 对“ABC支持开源" 切词的结果是“ABC" "支持“ ”开源“, 而不...

29.请问一下,xdb与txt词库那个读取效率更高

发布时间:2013-06-29 21:06 t By 阿弟2013

...,不知道xdb与txt相比,那个效率更高 另外,scws对于中英文分词效果不是很好,即文中的中文分得还可以,但对于页面中的英文部分,包括email,url,host这类处理效果比较差,我们目前采用两个分析器配合使用来达到最好的效果...

30.請問SCWS有方法整合到Postgresql裡面嗎?

发布时间:2010-07-02 17:07 t By lakersgogo

...就內建了Full Text Search了, 但是內建的parser跟dictionary都是英文的. 所以我想問問各位高手們, 是否有辦法直接將SCWS的parser跟dictionary直接放進postgres裡面, 讓它也能夠有中文分詞的能力? 我知道Bamboo那邊好像已經有這方面的插件: ...

12345
  • 时间不限
  • 按相关性排序