【关于 NLP】那些你不知道的事 —— 搜索引擎篇

作者：杨夕

介绍：研读顶会论文，复现论文相关代码

NLP 百面百搭地址：https://github.com/km1994/NLP-Interview-Notes

手机版NLP百面百搭

推荐系统百面百搭地址：https://github.com/km1994/RES-Interview-Notes

手机版推荐系统百面百搭

搜索引擎百面百搭地址：https://github.com/km1994/search-engine-Interview-Notes 【编写ing】

NLP论文学习笔记：https://github.com/km1994/nlp_paper_study

推荐系统论文学习笔记：https://github.com/km1994/RS_paper_study

GCN 论文学习笔记：https://github.com/km1994/GCN_study

推广搜军火库：https://github.com/km1994/recommendation_advertisement_search

手机版笔记，可以关注公众号 【关于NLP那些你不知道的事】 获取，并加入【NLP && 推荐学习群】一起学习！！！

注：github 网页版看起来不舒服，可以看 手机版NLP论文学习笔记

【关于 NLP】那些你不知道的事 —— 搜索引擎篇
- 介绍
  - NLP 学习篇
    - 理论学习篇
      - 【关于搜索引擎】那些你不知道的事
- 参考资料

介绍

NLP 学习篇

理论学习篇

【关于搜索引擎】那些你不知道的事

【关于搜索引擎】那些你不知道的事
【关于 GECToR】那些你不知道的事
- 论文：Pre-trained Language Model based Ranking in Baidu Search
- 论文地址：https://arxiv.org/abs/2105.11108
- 论文出处：KDD'21
- 动机：
  - 作为搜索引擎的核心， Ranking System 在满足用户的信息需求方面起着至关重要的作用；
  - 基于 PLM 的 Neural Rankers 难以直接应用：
    - （1）推理时延高：大规模神经 PLM 的计算成本过高，尤其是对于网络文档中的长文本，禁止将它们部署在需要极低延迟的 Online Ranking System 中；
    - (2) 目标不一致问题：基于 PLM 的训练目标与临时检索场景目标存在不一致问题；
    - (3) 兼容性问题：搜索引擎通常涉及 committee of ranking components，如何让 Fine-tuning PLM 得到的 Ranking System 与其兼容，存在问题；
- 论文方法：在线搜索引擎系统中部署最先进的中文预训练语言模型（即 ERNIE）时，贡献了一系列成功应用的技术来解决这些暴露的问题。
  - 首先，阐述了一种新颖的做法，以经济高效地汇总 Web 文档，并使用廉价但功能强大的 Pyramid-ERNIE 架构将结果汇总内容与查询联系起来。
  - 然后，赋予了一种创新范式来精细地利用大规模嘈杂和有偏见的点击后行为数据进行面向相关的预训练。
  - 提出了一种针对在线排名系统的 human-anchored 微调策略，旨在稳定各种在线组件的排名信号。
- 实验结果：大量的离线和在线实验结果表明，所提出的技术显着提高了搜索引擎的性能。
【关于 PLM for Web-scale Retrieval in Baidu Search 】那些你不知道的事
- 论文：Pre-trained Language Model for Web-scale Retrieval in Baidu Search
- 论文地址：https://arxiv.org/abs/2106.03373
- 论文出处：KDD'21
- 介绍： Retrieval 是网络搜索中的一个关键阶段，它从十亿规模的语料库中识别出一个与查询相关的候选集。在 retrieval 阶段发现更多语义相关的候选集有助于向最终用户展示更多高质量的结果。
- 动机：
  - 【语义匹配】：如何解决用户 query 多样化和口语化问题？
  - 【冷启动问题】：对于大多数第一次出现的 query 和 doc，如何让 Retrieval Models 捕获其对应语义信息？
  - 【工程实践】：如何将 Retrieval Models 应用于 Baidu Search？
- 论文方法：论文描述了作者在 Baidu Search 中开发和部署的 Retrieval Models 。
  - 该系统利用了最近最先进的中文预训练语言模型，即通过知识整合 (ERNIE) 的增强表示，它促进了系统的表达语义匹配。
  - 基于 ERNIE 的 Retrieval Models 拥有：
    - 1）expressive Transformer-based semantic encoders：能够帮助 Retrieval 充分捕获 query 和 doc 对应语义信息；
    - 2）多阶段训练范式：ERNIE 预训练模型分别采用不同的语料数据进行多阶段训练，提高模型泛化能力；
  - 系统工作流程：基于 ERNIE 的 Retrieval Models 结合传统 Retrieval Models 和 Deep Retrieval Models，并采用 lightweight post-retrieval filtering module 引入更多的统计特征（例如，点击率、停留时间），来对上述 Retrieval Models 的检索结果进行统一过滤，；
  - 最终，该系统完全部署到生产环境中，并进行了严格的离线和在线实验。
- 实验结果：
  - 该系统可以执行高质量的候选 retrieval ，特别是对于那些需求不常见的尾部查询。
  - 由预训练语言模型（即 ERNIE）推动的新 retrieval system 可以在很大程度上提高我们搜索引擎的可用性和适用性。

km1994 / nlp_paper_study_search_engine Goto Github PK

nlp_paper_study_search_engine's Introduction

【关于 NLP】那些你不知道的事 —— 搜索引擎篇

介绍

NLP 学习篇

理论学习篇

【关于搜索引擎】那些你不知道的事

参考资料

nlp_paper_study_search_engine's People

Contributors

Stargazers

Watchers

Forkers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs

km1994 / nlp_paper_study_search_engine Goto Github PK

nlp_paper_study_search_engine's Introduction

【关于 NLP】 那些你不知道的事 —— 搜索引擎篇

介绍

NLP 学习篇

理论学习篇

参考资料

nlp_paper_study_search_engine's People

Contributors

Stargazers

Watchers

Forkers

Recommend Projects

Recommend Topics

Recommend Org

Jobs

【关于 NLP】那些你不知道的事 —— 搜索引擎篇