行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 机器学习 正文

【干货】搜索引擎技术资料整理

这篇博客意图是收集市面上质量不错的搜索引擎技术资料,内容来源包括开源项目官网(Lucene、Solr、Elastic)、综合技术网站(infoQ、Stackoverflow、github 等)、专业技术网站(我爱自然语言处理等)、国内外知名互联网公司技术博客(阿里中间件团队博客、美团技术博客等)、知名技术牛人博客(Matrix67、刘超觉先等)等。
以下整理的内容大致根据来源进行分类,等这篇整理得差不多了再开一篇博客根据知识点进行梳理。
个人视角有限,还望各位同行补充、丰富,谢谢。

开源相关

Lucene

  • Lucene 官网

  • Lucene Wiki

  • 索引结构 -Lucene6.6.0

    Solr

  • Solr 官网

  • Solr Wiki

    Elastic

  • Elastic 官网

  • Elastic Blog

  • Elastic Formus

  • Elasticsearch: 权威指南 - 中文版

  • Elastic 中文社区

    LucidWorks

  • LucidWorks

  • LucidWorks Blog

    中文分词

  • ansj 分词

  • HanLP 分词

  • ES-Analysis-IK

大公司

阿里

  • 一淘 购物搜索引擎架构的变与不变(视频) - 20130127 - infoQ
    音频质量不高,听起来比较费劲。

  • 天猫推荐算法团队的那些事儿 - 20140401 - infoQ
    本文以访谈的方式呈现,对搜索和推荐算法进行了简单的比较,提到了 AB 测试和离线测试,主要对推荐算法团队的工作方式、工作考评、任务分配、招聘等进行了介绍。

  • 天猫推荐算法实践(视频) - 20140622 - infoQ
    简单介绍了天猫推荐业务、推荐系统架构,较为详细的分析了双 11 个性化会场案例,主要是针对品牌的个性化推荐,最后引出阿里巴巴大数据竞赛、天猫推荐算法大赛,题目是:开放 2011 年 4 月 -8 月用户对品牌的行为数据(点击、购买、收藏、加入购物车等),预测这些用户在 2011 年 9 月购买的品牌。
    推荐:天池大数据竞赛 天池数据集

  • 天猫 11.11:搜索引擎实时秒级更新 - 20141111 - infoQ
    文章简单介绍了阿里搜索引擎架构,提到了以下内容:1)为提高数据实时性(库存、价格等),去掉应用层和业务层的缓存,重点提升引擎层的服务能力。2)排序链,根据业务场景定制排序链。3)sku 搜索,搜索结果和属性导航联动(标类产品)。

  • 基于 Hadoop 生态技术构建阿里搜索离线系统(视频) - 20141205 - infoQ
    主要介绍了:1)阿里搜索业务(1688、淘宝、天猫、一淘、openSearch);2)搜索技术体系;3)搜索离线系统;4)实时计算方案;5)集群优化与管理;

  • 开放搜索服务系统架构:从系统、平台到开放服务(视频) - 20150610 - infoQ
    简单介绍了:1)搜索引擎的基础数据结构(倒排索引) 2)阿里搜索架构演变:单机架构;分布式架构(自动分发部署、集群资源复用);平台化(系统插件化);服务化(openSearch 自助式云搜索服务、多租户数据模型)。 讲解循序渐进,思路清晰,推荐。

  • B2B 搜索领域的算法挑战(视频) - 20150722 - infoQ

  • 阿里搜索实时计算和在线学习系统 PORA 介绍(视频) - 20160308 - infoQ

  • 基于 Apache Flink 的实时计算引擎 Blink 在阿里搜索中的应用 - 20170216 - infoQ

  • LTR(Learning To Rank)在个性化电商搜索领域的应用(视频) - 20170419 - infoQ

阿里搜索事业部技术团队
阿里集团搜索、推荐、图像技术的大本营,大数据时代的创新主场。

  • 阿里搜索事业部技术团队

  • OpenSearch:轻松构建大数据搜索服务 - 20160222

  • 搜索双链路实时计算体系 @双 11 实战 - 20160111

阿里中间件团队博客
2012 年期间,阿里中间件博客记录了 20 多篇 Lucene、Solr 相关博文,主要记录了一些在项目开发过程中遇到的问题,以及部分源码解读。内容丰富、实用,但不是很系统。

  • 阿里中间件团队博客

  • Solr/Lucene 日志分析 - 查询热点词 - 脚本工具 - 20120501

  • Solr 调优参考 - 20120521

  • Solr Lucene 优劣势分析 - 20120626

  • SolrQuery 性能压测参考 - 20120731

  • NumericField NumericRangeQuery 原理分析 - 20120731

  • Solr schema 编写指导 - 20120731

  • 关于搜索挖掘所想 - 20120731

  • SolrQuery 挖掘 -- 单维度聚合分析 - 20120920

  • 我感受到的排序机制参考 - 20120920

  • 垂直搜索新问题 - 20120920

  • Solr 平台化搜索实战必知场景 - 20120921

  • Solr Schema 配置小细节大问题 - 20121015

  • Solr DisjunctionMax 注解 - 20121015

  • Sql Support within Solr- 类 Sql 的 solr 搜索实现 (1) - 20121015

  • Sql Support within Solr- 类 Sql 的 solr 搜索实现 (2) - 20121015

  • 关于 TrieField 的全面认识、理解、运用 - 20121015

  • Solr Facet 引发思考 on the road - 20121029

  • 查询问题 ---queryparse 深入理解 - 20121029

  • TermRangeQuery 源码解析 - 20121106

  • Solr 之缓存篇 - 20121106

  • 搜索的测试话题 - 20121113

  • 关于搜索夜话 ---- 作为阶段序列的告别 - 20121113

  • solr 长文本搜索问题 - 20121210

  • SolrCore2.9.1 源码分析备忘 - 20121210

腾讯

  • 腾讯社区搜索架构演进(视频) - 20121107 - infoQ

百度

  • 大型搜索引擎的系统测试方法及案例分享(视频) - 20120717 - infoQ

  • 百度网页搜索,规模大幅膨胀下的架构优化实践(视频) - 20151214 - infoQ

  • Eden – 百度搜索系统的 PaaS 架构设计和实践(视频) - 20161104 - infoQ

  • 百度搜索开源基础架构系统解密(视频) - 20161208 - infoQ - 百度搜索基础架构团队

  • 百度万亿量级数据库 Tera 架构应用、设计与实践全攻略 - 20170526 - infoQ

  • Tera 在百亿级实时搜索架构中的应用(视频) - 20170601 - infoQ

京东

  • 京东 618:揭秘大促销背后的个性化推荐 - 20150618 - infoQ

  • 京东数据驱动下的个性化推荐(视频) - 20151008 - infoQ

  • 京东 11.11:商品搜索系统架构设计 - 20151111 - infoQ

  • 京东基于大数据技术的个性化电商搜索引擎(视频) - 20150209 - infoQ

  • 京东 618:机器学习与商品数据挖掘和知识抽取 - 20170618 - infoQ

美团点评

  • 外卖商家排序的算法演进(视频) - 20161008 - infoQ

美团点评技术团队博客
在国内互联网公司中,个人认为“美团点评技术团队博客”是最持之以恒的,而且非常干货。

  • 美团点评技术团队

  • 搜索引擎关键字智能提示的一种实现 - 20140217

  • Solr Facet 技术的应用与研究 - 20140609

  • Solr 空间搜索原理分析与实践 - 20140902

  • 地理空间距离计算优化 - 20140905

  • 基于机器学习方法的 POI 品类推荐算法 - 20141218

  • 美团 O2O 排序解决方案——线上篇 - 20151116

  • 美团 O2O 排序解决方案——线下篇 - 20151207

  • 美团点评旅游搜索召回策略的演进 - 20170616

携程

  • 携程技术中心

  • 携程用户数据采集与分析系统 - 20170518 - 携程技术中心

  • 携程 ELK 日志分析平台深耕之路 - 20160302 - 携程技术中心

  • 旅游行业垂直搜索的架构探索 - 20141212 - infoQ

去哪儿

  • 构建实时垂直搜索网站经验分享(视频) - 20120113 - infoQ

  • 去哪儿网机票搜索系统的高并发架构设计 20170421 - infoQ

  • 去哪儿酒店算法服务平台 - 20170506 - 携程技术中心

  • 去哪儿搜索引擎 QSearch 设计与实现(视频) - 20120711 - infoQ

搜狗

  • 计算广告技术之大数据下的短文本相关性计算(视频) - 20150713 - infoQ

  • 搜狗搜索广告检索系统 - 弹性架构演进之路 - 20160111 - infoQ

  • 深度学习在搜狗无线搜索广告中的应用 - 20160808 - infoQ

  • 以搜狗为例,谈语音输入如何影响你的生活 - 20161208 - infoQ

一号店

  • 1 号店 11.11:分布式搜索引擎的架构实践 - 20151112 - infoQ

  • 1 号店 11.11:机器排序学习在电商搜索中的实战 - 20161111 - infoQ

  • 机器学习在 1 号店商品匹配中的实践 - 20170506 - 携程技术中心

待分类

国内

  • 当当 11.11:促销系统与交易系统的重构实践 - 20151113 - infoQ

  • 苏宁易购 11.11:商品详情系统架构设计 - 20151227 - infoQ

  • 饿了么 推荐系统的从 0 到 1 - 20170123 - 携程技术中心

  • 一点咨询 如何深度融合搜索和推荐:兴趣引擎架构设计(视频) - 20170406 - infoQ

  • 易到用车 O2O 的实时搜索引擎(视频) - 20151019 - infoQ

  • 达观数据 点击模型:提升算法精度的利器 - 20160315 - infoQ

  • 达观数据 一个可供参考的搜索引擎排序架构实践案例 - 20160830 - infoQ

  • 达观数据 "搜你所想" 之用户搜索意图识别 - 20170608 - infoQ

  • 链家网 数据驱动在搜索优化与推荐策略中的实践 - 20170406 - infoQ

  • 豌豆荚 发布应用内搜索协议 - 20140401 - infoQ

  • 豌豆荚 工程师谈其新版应用搜索技术 - 20121206 - infoQ

  • 蘑菇街 电商算法演化:从爆款模型到个性化模型(视频) - 20160523 - infoQ

  • 今日头条 的个性化推荐 - 20150624 - infoQ

  • 艺龙 基于实时价格计算的电商检索系统(视频) - 20160715 - infoQ

国外

  • Twitter 实时搜索引擎发展历程(视频) - 20160330 - infoQ

  • Twitter 是怎么做搜索的 - 20160219 - infoQ

  • LinkedIn 基于 Kafka 和 ElasticSearch 的实时日志分析系统 - 20170316 - infoQ

  • Yelp 是如何用数据驱动搜索过滤器的? - 20151209 - infoQ

  • Instagram 的热门趋势发现算法 - 20150707 - infoQ

开发应用

理论基础

  • 我爱自然语言处理 推荐

  • 漫话中文自动分词和语义识别 膜拜中文系大牛 Matrix67

    源码解读

  • 刘超觉先 详细分析了 Lucene3.x 的源码,推荐。

  • Anatomy of an Elasticsearch Cluster: Part I - infoQ 翻译

  • Anatomy of an Elasticsearch Cluster: Part II - infoQ 翻译

  • Anatomy of an Elasticsearch Cluster: Part III - infoQ 翻译

    常见问题

  • Stackoverflow - Lucene

  • Stackoverflow - Solr

  • Stackoverflow - Elastic

    其他

  • 对话 Kibana 之父:如果需要,你应该自己动手编写工具 - 20170111 - infoQ

  • 配置高性能 Elasticsearch 集群的 9 个小贴士 - 20170104 - infoQ

  • 基于 ElasticStack 的数据探索与分析 - 20161018 - infoQ

  • 使用 Akka、Kafka 和 ElasticSearch 等构建分析引擎 - 20160825 - infoQ

  • 万亿级日志与行为数据存储查询技术剖析 - 20170222 - infoQ

  • 谷歌的自然语言部门是啥样的? - 20160118 - infoQ

  • 通过 Baratine 将 Lucene 库暴露为微服务 - 20160225 - infoQ


更多高质资源 尽在AIQ 机器学习大数据 知乎专栏 点击关注

转载请注明 AIQ - 最专业的机器学习大数据社区  http://www.6aiq.com

微信公众号

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
SEM推广服务

Copyright©2005-2028 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注

扫码入群
扫码关注

微信公众号

返回顶部