edwardsayer / jcseg Goto Github PK

Automatically exported from code.google.com/p/jcseg

jcseg's People

Contributors

jcseg's Issues

几点建议（已解决）

1、同义词的设置，比如设置你好的同义词：您好、hello、hi，
这样只能是后者是前者的同义词，能否这几个词语互为同义��
�呢？
2、感觉文档还是不够详细，特别是针对词库这块，我打开看�
��看，好像是有一定格式要求，能否详细说明下各词库的格式
要求？
谢谢！

Original issue reported on code.google.com by [email protected] on 27 Jan 2015 at 8:41

1.9.4版本不支持solr4.9?

在solr4.9版本中添加jcseg-1.9.4 ，执行分词是报一下错误

ERROR - 2014-07-11 02:11:08.290; org.apache.solr.common.SolrException; 
null:java.lang.RuntimeException: java.lang.AbstractMethodError
        at org.apache.solr.servlet.SolrDispatchFilter.sendError(SolrDispatchFilter.java:793)
        at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:434)
        at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:207)
        at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:235)
        at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:206)
        at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:233)
        at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:191)
        at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:127)
        at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:103)
        at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:109)
        at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:293)
        at org.apache.coyote.http11.Http11AprProcessor.process(Http11AprProcessor.java:879)
        at org.apache.coyote.http11.Http11AprProtocol$Http11ConnectionHandler.process(Http11AprProtocol.java:617)
        at org.apache.tomcat.util.net.AprEndpoint$Worker.run(AprEndpoint.java:1774)
        at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.AbstractMethodError
        at org.apache.lucene.analysis.util.TokenizerFactory.create(TokenizerFactory.java:76)
        at org.apache.solr.handler.AnalysisRequestHandlerBase.analyzeValue(AnalysisRequestHandlerBase.java:117)
        at org.apache.solr.handler.FieldAnalysisRequestHandler.analyzeValues(FieldAnalysisRequestHandler.java:226)
        at org.apache.solr.handler.FieldAnalysisRequestHandler.handleAnalysisRequest(FieldAnalysisRequestHandler.java:187)
        at org.apache.solr.handler.FieldAnalysisRequestHandler.doAnalysis(FieldAnalysisRequestHandler.java:102)
        at org.apache.solr.handler.AnalysisRequestHandlerBase.handleRequestBody(AnalysisRequestHandlerBase.java:60)
        at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)
        at org.apache.solr.core.RequestHandlers$LazyRequestHandlerWrapper.handleRequest(RequestHandlers.java:241)
        at org.apache.solr.core.SolrCore.execute(SolrCore.java:1962)
        at org.apache.solr.servlet.SolrDispatchFilter.execute(SolrDispatchFilter.java:777)
        at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:418)
        ... 13 more

Original issue reported on code.google.com by [email protected] on 11 Jul 2014 at 9:38

jcseg1.9.3 分词结果（已解决）

您好:
   我是第一次接触这套系统我想请问如果要在java上执行这套系统我该如何设定才有办法和您的"分词结果"(http://www.oschina.net/p/jcseg/news)输出包含分词与词性?

Original issue reported on code.google.com by [email protected] on 25 Apr 2014 at 12:19

为什么分词的时候，部分词语丢掉了（已解决）

切换到jar目录后，直接运行测试：
java -jar jcseg-core-1.8.8.jar
结果如下：
1. 叔叔亲了我妈妈也亲了我
   分词语结果：叔叔 亲了 妈妈 亲了
2. 我和你是好朋友
   分词结果：好朋友

What version of the product are you using? On what operating system?
操作系统 Win8 64位 
java版本：1.7.0_15

Original issue reported on code.google.com by [email protected] on 23 Jul 2013 at 3:32

Solr 中 jcseg.properties配置文件路径问题（已解决）

你好lion 
soul，我使用最新的jcseg1.9.4版本，应用到Solr4.X中，容器是Tomca
t

我按照文档的说明：
1. 
从jcseg附件解压目录中将jcseg-core-1.9.4.jar和jcseg-solr-1.9.4.jar和 
jcseg.properties 复制到Tomcat中solr的类库目录 
/usr/local/apache-tomcat/webapps/solr/WEB-INF/lib/ 下；
2. 修改jcseg.properties中的lexicon.path
3. 修改solr的schema.xml配置文件，添加fieldtype

重启tomcat后，会打印错误日志
java.io.IOException: Invalid sub lexicon path /java/JavaSE/jcseg/lexicon for 
lexicon.path in jcseg.properties

当我删除jcseg.properties文件时，打印同样的错误日志，所以我�
��定是jcseg没有找到配置文件。

请问是哪里出错了？

Original issue reported on code.google.com by [email protected] on 11 Jun 2014 at 9:52

对jcesg的疑问 (已解决)



What steps will reproduce the problem?
在看例子中“罗志高兴奋极了”分词的时候，分成了“罗兴��
�极了因志高”，感觉分的不对，看了源代码发现在findCHName( 
char[] chars, int index, IChunk chunk 
)方法中，只是调用了isb.clear().而IWord[] ws = getNextMatch(chars, 
index_);这行会对isb修改，我个人认为还是用StringBuilder isb = new 
StringBuilder();代替isb.clear();比较好

What is the expected output? What do you see instead?


What version of the product are you using? On what operating system?
1.8.0.on Windows

Please provide any additional information below.

Original issue reported on code.google.com by [email protected] on 9 May 2013 at 7:09

1.9.5版本不支持solr5?

在solr5.0.0版本中添加jcseg-1.9.5 ，执行分词是报错：
java.lang.AbstractMethodError: 
org.apache.lucene.analysis.util.TokenizerFactory.create(Lorg/apache/lucene/util/
AttributeFactory;)Lorg/apache/lucene/analysis/Tokenizer;
    at org.apache.lucene.analysis.util.TokenizerFactory.create(TokenizerFactory.java:75)
    at org.apache.solr.analysis.TokenizerChain.createComponents(TokenizerChain.java:64)
    at org.apache.lucene.analysis.AnalyzerWrapper.createComponents(AnalyzerWrapper.java:101)
    at org.apache.lucene.analysis.AnalyzerWrapper.createComponents(AnalyzerWrapper.java:101)
    at org.apache.lucene.analysis.Analyzer.tokenStream(Analyzer.java:179)
    at org.apache.lucene.document.Field.tokenStream(Field.java:556)
    at org.apache.lucene.index.DefaultIndexingChain$PerField.invert(DefaultIndexingChain.java:606)
    at org.apache.lucene.index.DefaultIndexingChain.processField(DefaultIndexingChain.java:344)
    at org.apache.lucene.index.DefaultIndexingChain.processDocument(DefaultIndexingChain.java:300)
    at org.apache.lucene.index.DocumentsWriterPerThread.updateDocument(DocumentsWriterPerThread.java:231)
    at org.apache.lucene.index.DocumentsWriter.updateDocument(DocumentsWriter.java:449)
    at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1349)
    at org.apache.solr.update.DirectUpdateHandler2.addDoc0(DirectUpdateHandler2.java:242)
    at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:166)
    at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)
    at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)
    at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:931)
    at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:1085)
    at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:697)
    at org.apache.solr.update.processor.LogUpdateProcessor.processAdd(LogUpdateProcessorFactory.java:104)
    at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:247)
    at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:174)
    at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:103)
    at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)
    at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:144)
    at org.apache.solr.core.SolrCore.execute(SolrCore.java:2006)
    at org.apache.solr.servlet.SolrDispatchFilter.execute(SolrDispatchFilter.java:777)
    at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:413)
    at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:204)
    at org.eclipse.jetty.servlet.ServletHandler$CachedChain.doFilter(ServletHandler.java:1419)
    at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:455)
    at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:137)
    at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:557)
    at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:231)
    at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1075)
    at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:384)
    at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193)
    at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1009)
    at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135)
    at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255)
    at org.eclipse.jetty.server.handler.HandlerCollection.handle(HandlerCollection.java:154)
    at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)
    at org.eclipse.jetty.server.Server.handle(Server.java:368)
    at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:489)
    at org.eclipse.jetty.server.BlockingHttpConnection.handleRequest(BlockingHttpConnection.java:53)
    at org.eclipse.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:953)
    at org.eclipse.jetty.server.AbstractHttpConnection$RequestHandler.content(AbstractHttpConnection.java:1014)
    at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:953)
    at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:240)
    at org.eclipse.jetty.server.BlockingHttpConnection.handle(BlockingHttpConnection.java:72)
    at org.eclipse.jetty.server.bio.SocketConnector$ConnectorEndPoint.run(SocketConnector.java:264)
    at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608)
    at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:543)
    at java.lang.Thread.run(Thread.java:745)

Original issue reported on code.google.com by [email protected] on 13 Apr 2015 at 8:13

匹配精度问题（已解决）

感谢作者的努力，我在试用的过程中有个关于精度匹配的问��
�
比如下面两句话：
1、教育问题一直是国家最关心的,我们要长抓不懈
2、教育独生子女问题,这是很多家长要关心的问题
那么我在查询“教育问题”的时候应该是第一条匹配度最高��
�显示在最前面，我在试用的时候是第二条显示最前面的，这�
��问题有解决方法吗？

Original issue reported on code.google.com by [email protected] on 10 Jun 2014 at 2:26

求救！分词出现错误！ (已解决)

你好：
我使用的是最新的1.7.2.5版本；
我把以下一句话：阿尔滨·锦城明郡【盘锦豪宅】新品【四层
】墅质洋房一跃二庭院全送，三跃四超大露台。70㎡车库全赠
送，电梯直接入户，高档石材外立面3857777
进行分词处理，能正确进行分词；
但我把这句话去掉标点符号后，语句如下：
阿尔滨锦城明郡盘锦豪宅新品四层墅质洋房一跃二庭院全送��
�跃四超大露台70车库全赠送电梯直接入户高档石材外立面38577
77
再进行分词，出现了空指针的现象：
Exception in thread "main" java.lang.NullPointerException
    at com.webssky.jcseg.ASegment.findCHName(ASegment.java:535)
    at com.webssky.jcseg.ASegment.next(ASegment.java:215)
    at com.webssky.jcseg.test.Demo.segment(Demo.java:52)
    at com.webssky.jcseg.test.Demo.main(Demo.java:88)
通过断点跟踪，发现是在解析“高档”这个词时出现的问题��
�我发现在lex-chars.lex文件中并没有“档”这个字，请问如果我
自己添加这个字到文件中的话，档/null/dang/null/XXX，这5个字段
都代表什么意思？最后这个整数XXX需要如何填写，多谢！

Original issue reported on code.google.com by [email protected] on 24 Dec 2012 at 7:48

關於hadoop上使用jcseg（已解决）

請問jcseg能夠用於hadoop上嗎? 
我嘗試讓jcseg找出上載於hadoop hdfs上的字庫 
似乎jcseg無法讀到hdfs上的字庫 
使得在分詞時只能輸出單字

另外要感謝作者 jcseg幫了我很大的忙!

Original issue reported on code.google.com by [email protected] on 7 May 2014 at 4:18

關於繁體中文的支持度如何? (已解决)

如果同時支援簡繁都可以分詞的狀況，需要對那些部分進行��
�改?

Original issue reported on code.google.com by [email protected] on 18 Sep 2013 at 5:34

你这个分词器有没有比较全一点的教程 (已解决)

比较了几个分词器，就你的这个支持较新的lucene,就是不知道�
��没有比较全的教程。

Original issue reported on code.google.com by [email protected] on 26 Jun 2013 at 2:39

能不能有份详细的说明书？？ (已解决)

What steps will reproduce the problem?
1. Analyzer analyzer = new JcsegAnalyzer4X(Config.COMPLEX_MODE); 
project 首页没更新过来

2. 有没有详细的说明？Config.COMPLEX_MODE 
这个真不知道干嘛用的，更不说其他值了。
项目的配置、demo、截图都搞个，方便新人。

3. lexicon 这个文件有5M多，也要打包到项目中去？

Original issue reported on code.google.com by [email protected] on 1 Jul 2013 at 8:14

配置文件装载路径问题 (已解决)

lexPro.load(new FileReader(ASegment.JAR_HOME+"/"+LEX_PROPERTY_FILE));

个人认为这个把配置文件写死的方式很不方便

1. 如果用maven, 用ide开发的时候我要放一个jcseg.properties放到 
maven仓库中去,  非常奇怪的事情.
2. 及时不用maven, 我的jar包也说不好在什么地方, 
但是要放一个jcseg.properties 和jar在一起, 挺奇怪的事情


通常的做法都是读取classpath里面的jcseg.properties  
或者读取当前路径下的jcseg.properties

Original issue reported on code.google.com by cnscud on 31 Oct 2012 at 2:40

关于如何关闭配对标点内容提取特性的问题（已解决）

你好 ！ 感谢 您开源 这款分词工具，我在一个项目上面 
使用了 它  目前来说 都挺好用，但是 有一个 特性  就是 
碰到  配对标点  会 
直接提取内容，不再进行分词，这与我的 
项目需求不符，请问下有什么办法关闭这个特性吗？配置文��
�有一个 对最大标点配对内容匹配长度 
的配置选项，我尝试配置 为0 或者1  但是 貌似 都不起作用  
还是没有分词。希望收到您的回复，谢谢！！！

Original issue reported on code.google.com by [email protected] on 25 Nov 2014 at 2:37

Error loading class (己解决)

請教solr-4.6.0下想要使用jcseg遇到問題

jcseg-core-1.9.1.jar, jcseg.properties, jcseg-solr-1.9.1.jar, 
lexicon語系目錄皆已放置在/root/solr-4.6.0/example/lib下

jcseg.properties裡的lexicon.path=/root/solr-4.6.0/example/lib/lexicon

/root/solr-4.6.0/example/solr/collection1/conf/schema.xml裡也設定好
<fieldType name="text_general" class="solr.TextField" 
positionIncrementGap="100">....
<tokenizer class="org.lionsoul.jcseg.solr.JcsegTokenizerFactory"/>
.....

但啟動時出現
「Unable to create core: collection1
org.apache.solr.common.SolrException: Plugin init failure for [schema.xml] 
fieldType "text_general": Pluailure for [schema.xml] analyzer/tokenizer: Error 
loading class 'org.lionsoul.jcseg.solr.JcsegTokenizerFchema file is 
/root/solr-4.6.0/example/solr/collection1/schema.xml」
「org.apache.solr.common.SolrException: Plugin init failure for [schema.xml] 
fieldType "text_general": Plugin init failure for [schema.xml] 
analyzer/tokenizer: Error loading class 'org.lionsoul.jcseg.solr.JcseFactory'」

請教該如何處理？謝謝

Original issue reported on code.google.com by [email protected] on 17 Jan 2014 at 3:30

lucene应用中向词库中添加同义词后如何加载？（已解决）

What steps will reproduce the problem?
1. 我毕业设计急需用到这个分词器，感谢！
2. 
lucene搜索加入了这个分词器，需要添加一些同义词到词库中��
�但是按照说明文档上的方法加载后，同义词没有添加进去
3. 请问有没有这方面更详细些的实例或者说明呢？

What is the expected output? What do you see instead?


What version of the product are you using? On what operating system?


Please provide any additional information below.

Original issue reported on code.google.com by [email protected] on 13 Mar 2014 at 2:06

您好,请问以特殊标点符号开头或者结尾的符号能不能保留下来呢 (已解决)

我遇到的问题如下：
比如想对一个数学表达式进行分词，想保留该表达式原型，��
�配制项里面开启了支持特殊标点的功能，但以特殊标点符号�
��头或者结尾的符号不能保留下来，被去掉了。
如： [(x+y)=2] 分词后的结果是  x+y)=2 
我想分词后结果还是[(x+y)=2]，请问应该怎么做呢？谢谢！

Original issue reported on code.google.com by [email protected] on 10 Mar 2014 at 8:40

不知作者有没有对lecene匹配相似度算法有好的建议 (交流性)

首先感谢作者辛苦的劳作，写出这么好的分词工具；我应用��
�项目中，效果很好，感谢；
不知作者有没有对使用lecene匹配相似度有好的建议
例如：a=**XX b=天朝XX
a和b的匹配相似度应该是一样的，但实际应用起来“**=天��
�”或者“单车=自行车=脚踏车”这种同义词收集得不足够多��
�会导致相似度判断误差
以上是基于同义词的匹配，对于“概念匹配”（百度google也��
�该叫智能匹配？）这种算法有什么想法，希望大家可以交流�
��

Original issue reported on code.google.com by [email protected] on 8 Feb 2013 at 5:27

[建议] 为什么不把代码托管到github呢? (已解决)

个人感觉，github要比�Google code方便很多，社区做的也不错。

何不迁移一下呢？

Original issue reported on code.google.com by [email protected] on 29 Nov 2013 at 3:56

同义词声明 (已解决)

在使用您提供的项目时，我有一点小疑问，就是同义词，如��
�究和研讨，这两个词在词典库中必须分别定义对方为自己的�
��义词才能在分词中显示出，所以我想可不可以在配置文件中
再加一个选项，来声明这样一个情况:只要在一个词组中声明�
��它的同义词，这个同义词就不需要再重复一次声明？这样的
话在一些应用，如品牌名的定义中就可以减少一些重复的工��
�了。谢谢！

Original issue reported on code.google.com by [email protected] on 17 Sep 2013 at 2:40

exception on token something, refer to description (已解决)

What steps will reproduce the problem?

Caused by: java.lang.ArrayIndexOutOfBoundsException: 64
    at com.webssky.jcseg.util.IStringBuffer.deleteCharAt(Unknown Source)
    at com.webssky.jcseg.ASegment.nextLetterOrDigit(Unknown Source)
    at com.webssky.jcseg.ASegment.next(Unknown Source)
    at com.webssky.jcseg.lucene.JcsegTokenizer.incrementToken(Unknown Source)

What is the expected output? What do you see instead?

Should parse correctly without exception

What version of the product are you using? On what operating system?
1.8.8 lastest version

Please provide any additional information below.

Original issue reported on code.google.com by [email protected] on 21 Aug 2013 at 10:18

solr4.10中配置失败（已解决）

HTTP Status 500 - {msg=SolrCore 'collection1' is not available due to init 
failure: Could not load conf for core collection1: Plugin init failure for 
[schema.xml] fieldType "textComplex": Plugin init failure for [schema.xml] 
analyzer/tokenizer: Error loading class 
'org.lionsoul.jcseg.solr.JcsegTokenizerFactory'. Schema file is 
/configs/myconf/schema.xml,trace=org.apache.solr.common.SolrException: SolrCore 
'collection1' is not available due to init failure: Could not load conf for 
core collection1: Plugin init failure for [schema.xml] fieldType "textComplex": 
Plugin init failure for [schema.xml] analyzer/tokenizer: Error loading class 
'org.lionsoul.jcseg.solr.JcsegTokenizerFactory'. Schema file is 
/configs/myconf/schema.xml at 
org.apache.solr.core.CoreContainer.getCore(CoreContainer.java:745) at 
org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:347)
 at 
org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:207)
 at 
org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilt
erChain.java:241) at 
org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.
java:208) at 
org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:2
20) at 
org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:1
22) at 
org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:170) 
at 
org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:103) 
at org.apache.catalina.valves.AccessLogValve.invoke(AccessLogValve.java:950) at 
org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:116
) at 
org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:421) at 
org.apache.coyote.http11.AbstractHttp11Processor.process(AbstractHttp11Processor
.java:1070) at 
org.apache.coyote.AbstractProtocol$AbstractConnectionHandler.process(AbstractPro
tocol.java:611) at 
org.apache.tomcat.util.net.JIoEndpoint$SocketProcessor.run(JIoEndpoint.java:314)
 at 
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 
at 
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 
at 
org.apache.tomcat.util.threads.TaskThread$WrappingRunnable.run(TaskThread.java:6
1) at java.lang.Thread.run(Thread.java:745) Caused by: 
org.apache.solr.common.SolrException: Could not load conf for core collection1: 
Plugin init failure for [schema.xml] fieldType "textComplex": Plugin init 
failure for [schema.xml] analyzer/tokenizer: Error loading class 
'org.lionsoul.jcseg.solr.JcsegTokenizerFactory'. Schema file is 
/configs/myconf/schema.xml at 
org.apache.solr.core.ConfigSetService.getConfig(ConfigSetService.java:66) at 
org.apache.solr.core.CoreContainer.create(CoreContainer.java:489) at 
org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:255) at 
org.apache.solr.core.CoreContainer$1.call(CoreContainer.java:249) at 
java.util.concurrent.FutureTask.run(FutureTask.java:262) at 
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 
at 
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 
... 1 more Caused by: org.apache.solr.common.SolrException: Plugin init failure 
for [schema.xml] fieldType "textComplex": Plugin init failure for [schema.xml] 
analyzer/tokenizer: Error loading class 
'org.lionsoul.jcseg.solr.JcsegTokenizerFactory'. Schema file is 
/configs/myconf/schema.xml at 
org.apache.solr.schema.IndexSchema.readSchema(IndexSchema.java:595) at 
org.apache.solr.schema.IndexSchema.<init>(IndexSchema.java:166) at 
org.apache.solr.schema.IndexSchemaFactory.create(IndexSchemaFactory.java:55) at 
org.apache.solr.schema.IndexSchemaFactory.buildIndexSchema(IndexSchemaFactory.ja
va:69) at 
org.apache.solr.core.ConfigSetService.createIndexSchema(ConfigSetService.java:90
) at org.apache.solr.core.ConfigSetService.getConfig(ConfigSetService.java:62) 
... 7 more Caused by: org.apache.solr.common.SolrException: Plugin init failure 
for [schema.xml] fieldType "textComplex": Plugin init failure for [schema.xml] 
analyzer/tokenizer: Error loading class 
'org.lionsoul.jcseg.solr.JcsegTokenizerFactory' at 
org.apache.solr.util.plugin.AbstractPluginLoader.load(AbstractPluginLoader.java:
177) at org.apache.solr.schema.IndexSchema.readSchema(IndexSchema.java:486) ... 
12 more Caused by: org.apache.solr.common.SolrException: Plugin init failure 
for [schema.xml] analyzer/tokenizer: Error loading class 
'org.lionsoul.jcseg.solr.JcsegTokenizerFactory' at 
org.apache.solr.util.plugin.AbstractPluginLoader.load(AbstractPluginLoader.java:
177) at 
org.apache.solr.schema.FieldTypePluginLoader.readAnalyzer(FieldTypePluginLoader.
java:362) at 
org.apache.solr.schema.FieldTypePluginLoader.create(FieldTypePluginLoader.java:9
5) at 
org.apache.solr.schema.FieldTypePluginLoader.create(FieldTypePluginLoader.java:4
3) at 
org.apache.solr.util.plugin.AbstractPluginLoader.load(AbstractPluginLoader.java:
151) ... 13 more Caused by: org.apache.solr.common.SolrException: Error loading 
class 'org.lionsoul.jcseg.solr.JcsegTokenizerFactory' at 
org.apache.solr.core.SolrResourceLoader.findClass(SolrResourceLoader.java:490) 
at 
org.apache.solr.core.SolrResourceLoader.newInstance(SolrResourceLoader.java:593)
 at 
org.apache.solr.schema.FieldTypePluginLoader$2.create(FieldTypePluginLoader.java
:342) at 
org.apache.solr.schema.FieldTypePluginLoader$2.create(FieldTypePluginLoader.java
:335) at 
org.apache.solr.util.plugin.AbstractPluginLoader.load(AbstractPluginLoader.java:
151) ... 17 more Caused by: java.lang.ClassNotFoundException: 
org.lionsoul.jcseg.solr.JcsegTokenizerFactory at 
java.net.URLClassLoader$1.run(URLClassLoader.java:366) at 
java.net.URLClassLoader$1.run(URLClassLoader.java:355) at 
java.security.AccessController.doPrivileged(Native Method) at 
java.net.URLClassLoader.findClass(URLClassLoader.java:354) at 
java.lang.ClassLoader.loadClass(ClassLoader.java:425) at 
java.net.FactoryURLClassLoader.loadClass(URLClassLoader.java:789) at 
java.lang.ClassLoader.loadClass(ClassLoader.java:358) at 
java.lang.Class.forName0(Native Method) at 
java.lang.Class.forName(Class.java:274) at 
org.apache.solr.core.SolrResourceLoader.findClass(SolrResourceLoader.java:474) 
... 21 more ,code=500}

Original issue reported on code.google.com by [email protected] on 26 Dec 2014 at 8:26

为什么修改了lexicon.dir之后. 词库子目录依然是默认的? (已解决)

jcseg.properties:
lexicon.dir=dic

com.webssky.jcseg.core.LexiconException: lexicon path 
[/Development/java/testJcseg/lexicon] does'n exists.

如上. 抛出了异常. 错误里面的子目录没有变. 配置未生效. 
但是lexicon.path已经生效了.

Original issue reported on code.google.com by [email protected] on 5 Jul 2013 at 4:17

请问对于IP地址的分词有如下的要求怎么做到？（已解决）

What steps will reproduce the problem?
1. IP地址或者MAC地址：如192.161.1.11 或 abc:13ab:2132:1fabc
2. 
想通过IP地址或MAC地址的一部分就能搜索到文档,如:192/192./192.
161/192.161.都能搜到192.161.1.11 相关的文档；

请问怎么配置才能做到？谢谢！

Original issue reported on code.google.com by [email protected] on 29 Mar 2014 at 4:17

wiki 中的内容无法显示了（已解决）

wiki 中的内容无法显示了，请问作者，哪里可以看到 
wiki中的内容呢？谢谢

Original issue reported on code.google.com by [email protected] on 28 Feb 2015 at 3:52

我在lucene中使用jcseg，JcsegAnalyzer4X类没有实现tokenStream方法也能用吗？（已解决）

Analyzer analyzer = new JcsegAnalyzer4X(JcsegTaskConfig.SIMPLE_MODE);

TokenStream stream = analyzer.tokenStream("", new StringReader(str));

按pdf里文档说的，然后把analyzer 
给lucene，对句子分词的时候报调用抽象方法错误。

初次接触，问题可能比较蠢，望解答。

Original issue reported on code.google.com by [email protected] on 26 Mar 2014 at 8:40

关于词库管理的小建议 (已解决)

用了几个分词器，效果不理想，最后还是找到这个分词器，��
�果不错，感谢作者的贡献，在使用过程中，想到有一点建议�
��
配置文件中词库路径能不能支持多个路径的载入？这样可以��
�便一点点词库的规划
自动重载词库能不能支持正则表达式匹配词库文件载入？

非常感谢作者贡献这么好的分词器d=(´▽｀)=b

Original issue reported on code.google.com by [email protected] on 29 Nov 2013 at 2:08

很好的中文分词工具！想将贵工具用于我的推荐项目中的一些需求： (已解决)

很好的中文分词工具！我需要的4个功能都有！我需要实现：1
、分词；2、过滤停用词；3、同义词匹配（同义词库我可以自
己建立维护）；4、能用于Lucene最新版本。试用很好很强大！

想将贵工具用于我的推荐项目中，还有几点个人需求：
1、汉字转数字（如千万->10000000）功能能否在配置文件中可关
闭。本项目中确实不需要。
2、配置文件jcseg.properties可否不必与JAR包在一起（可选）

另外还有一个疑问：
3、如果某个字不在lexicon词库中？当文档中出现这个字的时候
，运行代码是不是会出错？问这点我是考虑项目是否存在风��
�

Original issue reported on code.google.com by [email protected] on 4 Jun 2013 at 2:54

话说把jcseg放到自己的maven repository上没问题吧 (已解决)

为了给maven用，我把jcseg放到了自己的maven repository上
      <repository>
          <id>gjz010</id>
          <name>gjz010's Repo</name>
          <url>http://repo.gjz010.tk/</url>
      </repository>

    <dependency>
      <groupId>com.webssky.jcseg</groupId>
      <artifactId>jcseg-core</artifactId>
      <version>1.8.8</version>
    </dependency>
    <dependency>
      <groupId>com.webssky.jcseg</groupId>
      <artifactId>jcseg-solr</artifactId>
      <version>1.8.8</version>
    </dependency>
    <dependency>
      <groupId>com.webssky.jcseg</groupId>
      <artifactId>jcseg-analyzer</artifactId>
      <version>1.8.8</version>
    </dependency>
这个没问题吧= =

Original issue reported on code.google.com by [email protected] on 6 Aug 2013 at 6:31

lex-chars.lex中没有“档”字 (已解决)

What steps will reproduce the problem?
1. 运行程序中的Demo.java
2. 输入“出入于高档写字楼”
3. 出现了java.lang.NullPointerException

What is the expected output? What do you see instead?
出现了java.lang.NullPointerException

What version of the product are you using? On what operating system?
1.8.1

Please provide any additional information below.

Original issue reported on code.google.com by [email protected] on 10 May 2013 at 8:22

edwardsayer / jcseg Goto Github PK

jcseg's People

Contributors

jcseg's Issues

Recommend Projects

Recommend Topics

Recommend Org

Jobs