是你的.txt文件不规范吗,为什么会报不存在['tf'] & ['idf'] 啊 phptool for xdb 有最新版啊,建议下载最新的:http://www.ftphp.com/scws/download.php#xtools
TF/IDF值不会导致用不到分词,只是靠在一起时需要消岐才用得到。你自定义词典用不了要查查是什么别的原因。 通常问题: 1.词典写的字符集不对,比如把GBK当UTF-8了 2.词典更新后的修改时间由于某些原因比/tmp目录下生成的临...
感谢H大回复,好像是你说的这个问题。 曾经我以为这个scws是国外高人开发的,最近才发现国内的牛人。作为苦逼的程序一员,你就是我心中的刘德华了。
目前没有方法,我看只有采集 http://www.ftphp.com/scws/demo/get_tfidf.php 这个地址。 希望可以共享一下
...e = prefix :line = no :exclude = noname,symbol :znum = 1,2 :tf = 5.0 :idf = 3.5 :attr = nr 艾安贝卜戴费福盖戈古赫华霍吉贾金柯赖劳雷黎利林卢 鲁伦罗洛马麦米莫穆齐乔冉萨沙史斯温谢尤詹诸 [pubname2] :type = prefix :line = no :exclude = noname,s...
同样问题: 新建的词典如何设置权重 比如:相宜本草 (某化妆品品牌) 被分成: 相宜 本草 我通过词典增加的 “相宜本草” 但是不管用 mydict.txt 文件内容如下: 1 相宜本草 2 雅漾 3 舒护 4 活泉水 # scws -A ...
...,如: 一道/n 两个/n 一记/n 能否通过调整数词的tf和idf达到如下的效果: 一/m 道/q 两/m 个/q 或者有其他解决从工具本身解决的办法 ------------------------------------ 我自己尝试调tf-idf都失败了,感觉这些词是被特殊处理的...