1 算法流程
2 词向量匹配算法
词向量匹配算法是基于wiki百科的词向量,匹配输入值与数据库FIELD_TEXT字段最相似的数据。例如:数据中有“椅子”这条数据,如果用户输入的是“凳子”,如果按照字符串匹配的方法,只能返回给用户,没有此字段名。但实际上可以把“椅子”的结果返回给用户参考。这种泛化的能力,通过简单的字符串匹配是显然不能实现的。在上面的例子中,“凳子”跟“椅子”的语意更相近,跟“香蕉”或“冰箱”的语意相对较远。在数据搜索的过程中,可以计算用户输入的关键字与数据库中数据名间的相似度,在数据库中找出相似度最大的数据,推荐给用户。这种相近的程度就是词语的相似度,通过word2vec实现词语相似度的计算。
3 热点运算
对数据库中的数据进行频率计算,热点最主要是要解决推荐冷启动问题。
4 DIEN推荐流程
5 DIEN模型结构
6 训练数据
每行为一个样本,元素分别为用户id,用户访问的item id历史列表,用户本次访问的item,正负样本标识
7 测试数据
每行为一个样本,元素分别为用户id,用户访问的item id历史列表,用户本次访问正样本item,系统随机生成的负样本item
8 类别
每个元素为对应item的类别