dataterminatorx / keyword-bert Goto Github PK

View Code? Open in Web Editor NEW

278.0 278.0 55.0 772 KB

Python 99.62% Shell 0.38%

keyword-bert's People

Contributors

Stargazers

Watchers

keyword-bert's Issues

代码中语法问题确认

你好，文件convert_to_bert_keyword.py文件中的match接口，有如下两点疑惑：
1、在调英文匹配的时候调用的仍是中文匹配接口
def match(s, kws):
kw_index = set()
for kw in kws:
if re.match(r'^[\u4e00-\u9fff]+$', kw):
kw_index |= set(match_ch(s, kw))
elif re.match(r'^[a-zA-Z]+$', kw):
kw_index |= set(match_ch(s, kw)) #我的理解这里应该是用来做英文匹配的
else:
continue
return kw_index

2、在英文匹配接口里，字符串处理有问题
def match_en(s, kw):
kw_index = []
for idx,e in enumerate(s):
e.replace('#', '') #基于字符串对象是不可修改的，这里不重新赋值的话很可能是无效操作的
if e in kw:
kw_index.append(idx)
return kw_index

代码和实现问题以及paper的问题

在modeling.py中

重复定义 transformer_model_kw，定义了两次
函数 transformer_model_kw，和 transformer_model几乎一样，为何不加个参数直接复用，而是写成两个函数
fusion_rep 的实现和paper里面讲的不一样，我认为paper讲的是，[rep_CLS, rep_a, rep_b, rep_a-rep_b, rep_b-rep_a]而在代码实现中是，将[rep_CLS, dense([rep_a, rep_b)] 这个很confusing呀
no ablation studies ？我想知道的是不同的fusion ways 的效果对比

modified extract_features.py did not uploaded? it is the same as original Bert implement, and I cannot find keyword extractor in the repo

你好，请问能公布关键词提取构建代码吗？

我们使用 PMI 算法构建新词，可是复杂度太大，要跑很久。想学习下你们怎么构建的。谢谢

数据

您好，我想请问一下，在运行模型的时候构造数据时有create_pretraining_data.py和convert_to_bert_keyword.py两个文件，它们的作用分别是什么哪？然后在create_pretraining_data.py中数据输入输出的格式是什么那？

K-Bert是基于交互的深度语义模型吧，这种在落地的时候性能怎么样？

关键词抽取的一些疑惑

本文的work感觉很大质量上依赖于关键词抽取的质量。而在实际的业务中，并不能保证许多场景业务的关键词都能很好的抽取出来，导致实用性降低了一层。
针对各种关键词算法抽取对于整体模型的影响有仔细对比过吗

关于fusion_rep的实现问题

请问目前为止，fusion_rep的实现方式[rep_CLS, rep_a, rep_b, rep_a-rep_b, rep_b-rep_a]和[rep_CLS, dense([rep_a, rep_b)]，还是第一个的效果最好吗？还是说尝试出了更好的实现方式，所以改成第二种了？

code error: run_squad.py ---->read_baike_examples(input_file, is_training)

def read_baike_examples(input_file, is_training):
  """Read a baike txt file into a list of SquadExample"""
  with tf.gfile.Open(input_file, "r") as reader:
    for line in reader:

关于模型结构和 kw_mask

1. 模型结构

看论文中的描述，关键字注意力层和常规 transformer 层分别接在 11 层常规 transformer 之后，但是看源码中，貌似并不是这样，也就是 modeling.py 的第 212、226 行，类似于一个双塔结构，它们共享的只有 embedding 层？

2. kw_mask attention

在生成这个 mask 的过程中，cls 和 sep 三行中如果不经过特殊处理应该在进入 softmax 之前全部被填充成 -10000，那这三行在进行 softmax 计算的过程中不会发生除 0 错误吗？

谢谢

Questions about forecast results: test_results.tsv

hello @DataTerminatorX
Questions about forecast results:test_results.tsv

What does generation mean by probability? Choose the one with high probability?
Why does the test data have a high probability or low confidence?
How do you see the generated test results? Can you explain? Thank you for your open source

test_results0.txt

I would like to ask the same question. @zhx970928 @kakaxisisan

dataterminatorx / keyword-bert Goto Github PK

keyword-bert's People

Contributors

Stargazers

Watchers

Forkers

keyword-bert's Issues

1. 模型结构

2. kw_mask attention

Recommend Projects

Recommend Topics

Recommend Org

Jobs