【干货】搜索引擎技术资料整理
这篇博客意图是收集市面上质量不错的搜索引擎技术资料,内容来源包括开源项目官网(Lucene、Solr、Elastic)、综合技术网站(infoQ、Stackoverflow、github 等)、专业技术网站(我爱自然语言处理等)、国内外知名互联网公司技术博客(阿里中间件团队博客、美团技术博客等)、知名技术牛人博客(Matrix67、刘超觉先等)等。
以下整理的内容大致根据来源进行分类,等这篇整理得差不多了再开一篇博客根据知识点进行梳理。
个人视角有限,还望各位同行补充、丰富,谢谢。
开源相关
Lucene
-
Lucene 官网
-
Lucene Wiki
-
索引结构 -Lucene6.6.0
Solr
-
Solr 官网
-
Solr Wiki
Elastic
-
Elastic 官网
-
Elastic Blog
-
Elastic Formus
-
Elasticsearch: 权威指南 - 中文版
-
Elastic 中文社区
LucidWorks
-
LucidWorks
-
LucidWorks Blog
中文分词
-
ansj 分词
-
HanLP 分词
-
ES-Analysis-IK
大公司
阿里
-
一淘 购物搜索引擎架构的变与不变(视频) - 20130127 - infoQ
音频质量不高,听起来比较费劲。 -
天猫推荐算法团队的那些事儿 - 20140401 - infoQ
本文以访谈的方式呈现,对搜索和推荐算法进行了简单的比较,提到了 AB 测试和离线测试,主要对推荐算法团队的工作方式、工作考评、任务分配、招聘等进行了介绍。 -
天猫推荐算法实践(视频) - 20140622 - infoQ
简单介绍了天猫推荐业务、推荐系统架构,较为详细的分析了双 11 个性化会场案例,主要是针对品牌的个性化推荐,最后引出阿里巴巴大数据竞赛、天猫推荐算法大赛,题目是:开放 2011 年 4 月 -8 月用户对品牌的行为数据(点击、购买、收藏、加入购物车等),预测这些用户在 2011 年 9 月购买的品牌。
推荐:天池大数据竞赛 天池数据集 -
天猫 11.11:搜索引擎实时秒级更新 - 20141111 - infoQ
文章简单介绍了阿里搜索引擎架构,提到了以下内容:1)为提高数据实时性(库存、价格等),去掉应用层和业务层的缓存,重点提升引擎层的服务能力。2)排序链,根据业务场景定制排序链。3)sku 搜索,搜索结果和属性导航联动(标类产品)。 -
基于 Hadoop 生态技术构建阿里搜索离线系统(视频) - 20141205 - infoQ
主要介绍了:1)阿里搜索业务(1688、淘宝、天猫、一淘、openSearch);2)搜索技术体系;3)搜索离线系统;4)实时计算方案;5)集群优化与管理; -
开放搜索服务系统架构:从系统、平台到开放服务(视频) - 20150610 - infoQ
简单介绍了:1)搜索引擎的基础数据结构(倒排索引) 2)阿里搜索架构演变:单机架构;分布式架构(自动分发部署、集群资源复用);平台化(系统插件化);服务化(openSearch 自助式云搜索服务、多租户数据模型)。 讲解循序渐进,思路清晰,推荐。 -
B2B 搜索领域的算法挑战(视频) - 20150722 - infoQ
-
阿里搜索实时计算和在线学习系统 PORA 介绍(视频) - 20160308 - infoQ
-
基于 Apache Flink 的实时计算引擎 Blink 在阿里搜索中的应用 - 20170216 - infoQ
-
LTR(Learning To Rank)在个性化电商搜索领域的应用(视频) - 20170419 - infoQ
阿里搜索事业部技术团队
阿里集团搜索、推荐、图像技术的大本营,大数据时代的创新主场。
-
阿里搜索事业部技术团队
-
OpenSearch:轻松构建大数据搜索服务 - 20160222
-
搜索双链路实时计算体系 @双 11 实战 - 20160111
阿里中间件团队博客
2012 年期间,阿里中间件博客记录了 20 多篇 Lucene、Solr 相关博文,主要记录了一些在项目开发过程中遇到的问题,以及部分源码解读。内容丰富、实用,但不是很系统。
-
阿里中间件团队博客
-
Solr/Lucene 日志分析 - 查询热点词 - 脚本工具 - 20120501
-
Solr 调优参考 - 20120521
-
Solr Lucene 优劣势分析 - 20120626
-
SolrQuery 性能压测参考 - 20120731
-
NumericField NumericRangeQuery 原理分析 - 20120731
-
Solr schema 编写指导 - 20120731
-
关于搜索挖掘所想 - 20120731
-
SolrQuery 挖掘 -- 单维度聚合分析 - 20120920
-
我感受到的排序机制参考 - 20120920
-
垂直搜索新问题 - 20120920
-
Solr 平台化搜索实战必知场景 - 20120921
-
Solr Schema 配置小细节大问题 - 20121015
-
Solr DisjunctionMax 注解 - 20121015
-
Sql Support within Solr- 类 Sql 的 solr 搜索实现 (1) - 20121015
-
Sql Support within Solr- 类 Sql 的 solr 搜索实现 (2) - 20121015
-
关于 TrieField 的全面认识、理解、运用 - 20121015
-
Solr Facet 引发思考 on the road - 20121029
-
查询问题 ---queryparse 深入理解 - 20121029
-
TermRangeQuery 源码解析 - 20121106
-
Solr 之缓存篇 - 20121106
-
搜索的测试话题 - 20121113
-
关于搜索夜话 ---- 作为阶段序列的告别 - 20121113
-
solr 长文本搜索问题 - 20121210
-
SolrCore2.9.1 源码分析备忘 - 20121210
腾讯
- 腾讯社区搜索架构演进(视频) - 20121107 - infoQ
百度
-
大型搜索引擎的系统测试方法及案例分享(视频) - 20120717 - infoQ
-
百度网页搜索,规模大幅膨胀下的架构优化实践(视频) - 20151214 - infoQ
-
Eden – 百度搜索系统的 PaaS 架构设计和实践(视频) - 20161104 - infoQ
-
百度搜索开源基础架构系统解密(视频) - 20161208 - infoQ - 百度搜索基础架构团队
-
百度万亿量级数据库 Tera 架构应用、设计与实践全攻略 - 20170526 - infoQ
-
Tera 在百亿级实时搜索架构中的应用(视频) - 20170601 - infoQ
京东
-
京东 618:揭秘大促销背后的个性化推荐 - 20150618 - infoQ
-
京东数据驱动下的个性化推荐(视频) - 20151008 - infoQ
-
京东 11.11:商品搜索系统架构设计 - 20151111 - infoQ
-
京东基于大数据技术的个性化电商搜索引擎(视频) - 20150209 - infoQ
-
京东 618:机器学习与商品数据挖掘和知识抽取 - 20170618 - infoQ
美团点评
- 外卖商家排序的算法演进(视频) - 20161008 - infoQ
美团点评技术团队博客
在国内互联网公司中,个人认为“美团点评技术团队博客”是最持之以恒的,而且非常干货。
-
美团点评技术团队
-
搜索引擎关键字智能提示的一种实现 - 20140217
-
Solr Facet 技术的应用与研究 - 20140609
-
Solr 空间搜索原理分析与实践 - 20140902
-
地理空间距离计算优化 - 20140905
-
基于机器学习方法的 POI 品类推荐算法 - 20141218
-
美团 O2O 排序解决方案——线上篇 - 20151116
-
美团 O2O 排序解决方案——线下篇 - 20151207
-
美团点评旅游搜索召回策略的演进 - 20170616
携程
-
携程技术中心
-
携程用户数据采集与分析系统 - 20170518 - 携程技术中心
-
携程 ELK 日志分析平台深耕之路 - 20160302 - 携程技术中心
-
旅游行业垂直搜索的架构探索 - 20141212 - infoQ
去哪儿
-
构建实时垂直搜索网站经验分享(视频) - 20120113 - infoQ
-
去哪儿网机票搜索系统的高并发架构设计 20170421 - infoQ
-
去哪儿酒店算法服务平台 - 20170506 - 携程技术中心
-
去哪儿搜索引擎 QSearch 设计与实现(视频) - 20120711 - infoQ
搜狗
-
计算广告技术之大数据下的短文本相关性计算(视频) - 20150713 - infoQ
-
搜狗搜索广告检索系统 - 弹性架构演进之路 - 20160111 - infoQ
-
深度学习在搜狗无线搜索广告中的应用 - 20160808 - infoQ
-
以搜狗为例,谈语音输入如何影响你的生活 - 20161208 - infoQ
一号店
-
1 号店 11.11:分布式搜索引擎的架构实践 - 20151112 - infoQ
-
1 号店 11.11:机器排序学习在电商搜索中的实战 - 20161111 - infoQ
-
机器学习在 1 号店商品匹配中的实践 - 20170506 - 携程技术中心
待分类
国内
-
当当 11.11:促销系统与交易系统的重构实践 - 20151113 - infoQ
-
苏宁易购 11.11:商品详情系统架构设计 - 20151227 - infoQ
-
饿了么 推荐系统的从 0 到 1 - 20170123 - 携程技术中心
-
一点咨询 如何深度融合搜索和推荐:兴趣引擎架构设计(视频) - 20170406 - infoQ
-
易到用车 O2O 的实时搜索引擎(视频) - 20151019 - infoQ
-
达观数据 点击模型:提升算法精度的利器 - 20160315 - infoQ
-
达观数据 一个可供参考的搜索引擎排序架构实践案例 - 20160830 - infoQ
-
达观数据 "搜你所想" 之用户搜索意图识别 - 20170608 - infoQ
-
链家网 数据驱动在搜索优化与推荐策略中的实践 - 20170406 - infoQ
-
豌豆荚 发布应用内搜索协议 - 20140401 - infoQ
-
豌豆荚 工程师谈其新版应用搜索技术 - 20121206 - infoQ
-
蘑菇街 电商算法演化:从爆款模型到个性化模型(视频) - 20160523 - infoQ
-
今日头条 的个性化推荐 - 20150624 - infoQ
-
艺龙 基于实时价格计算的电商检索系统(视频) - 20160715 - infoQ
国外
-
Twitter 实时搜索引擎发展历程(视频) - 20160330 - infoQ
-
Twitter 是怎么做搜索的 - 20160219 - infoQ
-
LinkedIn 基于 Kafka 和 ElasticSearch 的实时日志分析系统 - 20170316 - infoQ
-
Yelp 是如何用数据驱动搜索过滤器的? - 20151209 - infoQ
-
Instagram 的热门趋势发现算法 - 20150707 - infoQ
开发应用
理论基础
-
我爱自然语言处理 推荐
-
漫话中文自动分词和语义识别 膜拜中文系大牛 Matrix67
源码解读
-
刘超觉先 详细分析了 Lucene3.x 的源码,推荐。
-
Anatomy of an Elasticsearch Cluster: Part I - infoQ 翻译
-
Anatomy of an Elasticsearch Cluster: Part II - infoQ 翻译
-
Anatomy of an Elasticsearch Cluster: Part III - infoQ 翻译
常见问题
-
Stackoverflow - Lucene
-
Stackoverflow - Solr
-
Stackoverflow - Elastic
其他
-
对话 Kibana 之父:如果需要,你应该自己动手编写工具 - 20170111 - infoQ
-
配置高性能 Elasticsearch 集群的 9 个小贴士 - 20170104 - infoQ
-
基于 ElasticStack 的数据探索与分析 - 20161018 - infoQ
-
使用 Akka、Kafka 和 ElasticSearch 等构建分析引擎 - 20160825 - infoQ
-
万亿级日志与行为数据存储查询技术剖析 - 20170222 - infoQ
-
谷歌的自然语言部门是啥样的? - 20160118 - infoQ
-
通过 Baratine 将 Lucene 库暴露为微服务 - 20160225 - infoQ
更多高质资源 尽在AIQ 机器学习大数据 知乎专栏 点击关注
转载请注明 AIQ - 最专业的机器学习大数据社区 http://www.6aiq.com
时间:2018-11-15 22:56 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
- [机器学习]堪比当年的LSTM,Transformer引燃机器学习圈:它是
- [机器学习]论机器学习领域的内卷:不读PhD,我配不配找工
- [机器学习]机器学习基础图表:概念、原理、历史、趋势和算法
- [机器学习]分析了 600 多种烘焙配方,机器学习开发出新品
- [机器学习]2021年的机器学习生命周期
- [机器学习]物联网和机器学习促进企业业务发展的5种方式
- [机器学习]机器学习中分类任务的常用评估指标和Python代码实现
- [机器学习]机器学习和深度学习的区别是什么?
- [机器学习]堪比当年的LSTM,Transformer引燃机器学习圈:它是
- [机器学习]年终总结:2021年五大人工智能(AI)和机器学习(ML)发展趋势
相关推荐:
网友评论: