基于百度AnyQ框架的聊天系统

1 AnyQ介绍
AnyQ(Answer your Question)是基于百度的一个QA框架，具有配置化，插件化框架，各功能均需要插件形式加入。
运行成功的截图：

打开浏览器, http://localhost:8900/solr/#/ 查看Solr搜索引擎的admin页面

在浏览器中，可以调用接口localhost:8999/anyq?question=虚拟字段是否能排序

AnyQ 使用 SimNet模型语义匹配模型构建文本语义相似度。

2 SimNet 框架
2.1 输入层
该层通过 look up table 将文本词序列转换为 word embedding 序列。
2.2 表示层
该层主要功能是由词到句的表示构建，或者说将序列的孤立的词语的 embedding 表示，转换为具有全局信息的一个或多个低维稠密的语义向量。最简单的是 Bag of Words（BOW）的累加方法，除此之外，我们还在 SimNet 框架下研发了对应的序列卷积网络（CNN）、循环神经网络（RNN）等多种表示技术。当然，在得到句子的表示向量后，也可以继续累加更多层全连接网络，进一步提升表示效果。
2.3 匹配层
该层利用文本的表示向量进行交互计算。

我们采用了 pair-wise Ranking Loss 来进行 SimNet 的训练。以网页搜索任务为例，假设搜索查询文本为 Q，相关的一篇文档为 D+，不相关的一篇文档为 D-，二者经过 SimNet 网络得到的和 Q 的匹配度得分分别为 S(Q,D+) 和 S(Q,D-)，而训练的优化目标就是使得 S(Q,D+)>S(Q,D-)。实际中，我们一般采用 Max-Margin 的 Hinge Loss：max⁡{0,margin-(S(Q,D+)-S(Q,D-))}。可以通过 margin 的不同设定，来调节模型得分的区分度。

3 AnyQ 整体框架
AnyQ主要有4个模块，Question Analysis（问题分析）， Question Retrival（问题检索），Question Matching（问题匹配），Ranking（排序）。

数据索引建立
首先，我们有一个FAQ set，我们将它灌入Solr企业级搜索引擎，作为Solr的候选集。可视化链接, 所有的数据都存在Solr的collection1中，倒排索引。Solr先对文档进行分词，当文档数据来临时，solr会首先对文档数据进行分词，创建索引库和文档数据库。正排索引从文档编号找词：

倒排索引是从词找文档编号：

cp ../tools/anyq_deps.sh . sh anyq_deps.sh cp ../tools/solr -rp solr_script sh solr_script/anyq_solr.sh solr_script/sample_docs

4 ANNOY(Approximate Nearest Neighbors Oh Yeah) 超平面多维近似向量查找工具
./annoy_index_build_tool example/conf/ example/conf/analysis.conf faq/faq_json.index 128 10 semantic.annoy 1>std 2>err
调用Simnet，将所有的问答话术都先进行分词向量表示，转化为 word embedding 序列然后输出语义向量表示，然后将这些向量存入AnnoyIndex，默认余弦相似度可以选择多种进行Index，创建二叉树集合的索引，Annoy可以快速获得语义临近点。保存的结果为build/example/conf/semantic.annoy，之后可以使用这个快速查询的结果会返回指定数目的id的list，其对应的字典为：build/example/conf/faq_json.index。

5 Analysis问题分析
中文词法分析(LAC)
百度的LAC是一个联合的词法分析模型，整体性地完成中文分词（SEG）、词性标注（POS）、专名识别（NER）任务。LAC既可以认为是Lexical Analysis of Chinese的首字母缩写，也可以认为是LAC Analyzes Chinese的递归缩。LAC基于一个堆叠的双向GRU结构BI-GRU-CRF结构：

6 Retrival 问题检索
从问题分析获得分析结果会传到Retrival中，获得Retrival结果。
Term检索
从Solr搜索引擎中获取候选集，有不同的Solr查询插件，例如：
* EqualSolrQBuilder：字段等于
* BoostSolrQBuilder：字段term加权
* ContainSolrQBuilder：字段包含关键词
* SynonymSolrQBuilder：字段term同义词
* DateCompareSolrQBuilder：日期字段比较
语义检索
语义检索从Aanalysis的分析结果中的语义向量表示字段，然后在根据Annoy 获取其最近的k个问题的id列表，通过id列表字典对应到Retrival的结果列表。

7 Matching 候选集相似度匹配
首先需要对候选集RetrivalResults进行分词，然后进行语义或者词法匹配，每一种匹配方法都会输出一个分值，作为匹配结果Candidates的一个feature。可以配置多种匹配方法，获取不同的features特征。
Semantic Matching 语义匹配
百度SimNet 模型可以输出语义匹配相似度。
Lexical Matching 词法匹配
分词的结果进行不同的相似度计算
BM25: query与候选的BM25相似度

Q表示查询Query，qi表示查询被解析得到的分词qi，d表示搜索结果文档d，Wi表示分词qi的权重，R(qi，d)表示分词qi与文档d的相关性得分。定义一个词与文档相关性的权重方法有很多，较常用的有IDF。
Jaccard：交集/并集
ContainSimilarity：该特征表示query与候选之间是否存在包含关系
EditDistance: 表示query与候选编辑距离相似度
Cosine Similarity: 表示query与候选在字面上的余弦相似度

8 Rank 候选集排序
排序模型，排序模型将会对Candidates的文档进行评分，并给出一个最终得分ltr_score。
线性排序模型
给定给个feature一个权重，加权获得最终得分
特征选择预测模型
选定一个feature最为最终得分
非线性- XGBoost 模型

9 排序模型
排序 -> 删除分数低于阈值的项 -> 删除重复 -> 输出结果
在AnyQ系统中，词典和策略都以插件的形式封装。开发者可以根据实际的业务需要配置Analysis、Retrieval、Matching和Ranking策略及相关的词典。Anyq的配置文件需按照Protobuf格式。
四个模块可以进行插拔化设置，除此之外，还需要设置字典的配置。

10 load词典
在策略插件中使用的词典，需在dict.conf中配置。当前系统的词典插件主要包括以下几种：
哈希词典：HashAdapter<TYPE1, TYPE2>
干预词典：String2RetrievalItemAdapter
切词词典: WordsegAdapter
Paddle SimNet匹配模型词典: PaddleSimAdapter