答疑课堂思考题答案（二）

你好，我是编辑小新。

今天是我们第二次答疑课。上一次加餐，我们公布了前面九节课的思考题参考答案。这次我们把后面课程的思考题答案，一并公布出来，同样地，一些优秀同学的答案也做了展示。

建议你自行思考之后，再对答案。每节课都附上了超链接，方便你跳转回顾。现在课程刚刚结课不久，也非常希望你分享一下自己的学习体会，花几分钟填一下后面的毕业问卷。

思考题答案

Q：请你思考一下：列存储数据库为什么能够提高OLAP查找性能？

A：原因有三点。第一，列存储的数据会有很多相近的数据在同一列，相对来说更好压缩；第二，列存储数据库提供了小索引，每隔一定条数就会产生一个小索引，这个索引可以加快查询和计算速度；第三，我们做汇总计算时，列数据库可以只读取参与计算的列数据，比读取全量的行数据库更有效率。

第十一节课

Q：既然我们通过ELK实现Trace那么简单，为什么会在当年那么难实现？

A：核心在于2014年的时候服务器资源并不丰富，没有PCIE的SSD。而且，那时还没有现在的大型分布式存储及索引开源，很难支撑每天1T的数据量，当时数据库超过100G都会很难维护。

Elasticsearch和Kafka刚出来的时候，还没有公认统一的Raft标准它们的实现是根据Paxos自行改进的。当时索引最好用的也只有Lucene以及Sphinx，连分词只有二元分词。

第十二节课

Q：如果让你实现一个Elasticsearch，你觉得需要先解决的核心功能是什么？

A：需要实现日志采集、分布式日志传输、分片存储、分片索引、分片查询、数据统计缓存、数据统计、分词。其中最核心的地方在于——如何解决大量数据的索引、查询问题。

第十三节课

Q：基于这节课讲到的算法和思路，SQL如何做聚合归类去重？

A：可以借鉴URL去参数思路去掉SQL参数。还可以通过AST对SQL进行去参数加工，比如阿里巴巴提供的druid，这是一个数据库连接池，感兴趣的话你可以点这里了解。

第十四节课

Q：ClickHouse是不能轻易修改删除数据的，那我们要如何做历史数据清理呢？

A：选可选的可以删除数据的引擎，但是性能不好，或使用mutations工具。

对于这个问题，还可以参考后面这两位同学的回答。首先是@Elvis Lee的回答。

1.设置TTL
2.表使用ReplaceMergetree
另外，@移横为固同学的思路也很优秀。

有简单使用clickhouse，考虑到clickhouse的特性，对需要修改的数据是不放入clickhouse存储。在历史数据清理上，使用过两个方法：

1.clickhouse支持过期删除策略，可以根据表中的时间字段设置过期时间，让clickhouse帮忙自动删除过期数据。

2.clickhouse存储数据会对数据进行分区存储，建表时就可以设置好分区字段，类似平常所说的水平分表。在删除数据时可以查找到表的分区信息，按分区删除数据。

第十五节课

Q1：如何解决Kafka消费偶发的乱序以及小概率消费重复问题？

A1：使用uuid以及timestamp+实体id，在Redis内setnx。

Q2：epoll实现时会分单线程Reactor、单Reactor多线程、多线程Reactor几种方式，对于存储服务你觉得哪种更适合？

A2：由于具体实现很复杂，具体请参考epoll相关内容。我们可以通过epoll对网络accept进行操作，还能在后续解包时选择异步、阻塞IO模式处理以及是否使用多线程，这些都可以根据不同的业务场景灵活调整。

第十六节课

Q：使用了大数组来保存数据，用offset+length实现的数据缓存，有什么办法修改数据？

A：如果是定长的数据，很好修改，替换即可。如果是变长的数据建议不修改，而是后台定期做合并数据整理，但是同时会有一定性能损耗代价。

第十七节课

Q：如何让Go的协程访问一个LState保存的数据？

A：在lua内定义函数，通过Go调用其函数即可获取。

第十八节课