��Ѷ PB ��ݼ��뼶��

��Ѷ��
2022��1��21��01ʱ

�� SuperSQL ��Ѷ��У��ͳһ�� SQL ��ģ�ͣ��ѧϰ��ܵ��ţ��ṩ��⻯��ݺͿ��ʽ��Ĵ��ں�ƽ̨��ڿ��ںϵ� Data Cloud �ϣ�ҵ�񷽿��ڣ��Ӳɼ�-�洢-��-��-��졣��ܹ��λ�ڲ�ͬ��ġ��ͬ��Դ��Ϸ��/��ʱ��ѯ��

Presto ��Ѷ�� SuperSQL ��̬�У��λΪʵ��뼶��ݼ��ĺ��ķ��Ҫ��ϯ��ѯ��ʽ��û��Presto ��Ѷ�ڲ��Ĳ�ͬҵ�񳡾��΢��֧��QQ��Ϸ�ȹؼ�ҵ��վ�� PB ��P90 ��ѯ��ʱΪ 50s��ȫ��ҵ��ʵʱ��ܣ��Ч��ҵ��ƪ��½��Ѷ�� Presto �ϵĺ��Ĺ��ԡ��ȶ��ԡ��ܣ��Լ�δ��Ҫ��ȷ��档

1 �� Presto ��ܹ�

�� Presto ��Ϊ�� SuperSQL ��Ҫִ��֮һ��Ҫ�е��ż��û� SQL ִ��ٶȵĽ�ɫ��SuperSQL ͨ����·����RBO/CBO/HBO��ķ�ʽ��ɸѡ��ʵ� SQL ��ַ�� Presto ִ�У��Լ�� SQL ��㡣��⣬�� Presto ִ��ʧ�ܣ�SuperSQL Ҳ��Զ� Failover �� Hive �� Spark ��ִ�У��ȷ��û� SQL ��˳��ִ��ɣ��̶��û�͸��޸�֪��

�� SuperSQL �Ľ��ܣ��Բ鿴��ʷ��£����ܡ�רע��Ѷ�� SuperSQL ��

�� Presto �� on K8s ��ķ�ʽ��߱��Զ��ά��ԭ��ͬʱ֧��Ϊ��ͬ��ҵ��ר�� Presto ��Ⱥ��Ա��ɲ�ͬ��Ⱥ��ص��໥Ӱ�졣

�� Presto �Ķ��Դ�� Presto ֧�ֶԽ�� Hive��Iceberg��MySQL ��Դ��Ϊ�˸��õ�֧��ڲ��ҵ��Ҳ��չ��ڲ�� TDW Connnector��֧�ַ��Ѷ�ڲ��ݲֿ��ݣ�TDW��Tencent distributed Data Warehouse��ͬʱ�� Presto ʹ�� Alluxio ��Ϊ��Դ��Hive ��Iceberg ��Ļ��㣬��ڼ��ȵ��ݵķ��ʣ��Ч�� Presto ��ѯ��Ч�ʡ�

2 ��ǿ

2.1 Hive �﷨��

��ڲ��û�ϰ��ʹ�� Hive ��﷨�� Presto ��﷨�� Hive ��Щ��ͬ�� Presto ��˼��ݲ�� Hive �﷨��Ĺ��Ҫ��ֵ��±�ȡֵ��Hive UDF ֧�֡�Mapjoin Hint��ʽת��ȡ�

�� Mapjoin Hint��ʵ�Ƕ�Ӧ�� Presto �е� Broadcast Join��û�ͨ�� Mapjoin Hint ��ָ�� Join �е��Ҫ Broadcast��㲥��ı��Դ��ѯ��ܣ��ڴ�С�� Join �ĳ��Ŀǰ��֧�� Inner Join �� Left Join ��ʹ�� Mapjoin Hint��

--Presto����BroadcastJoin��Broadcast�ı�Ϊtest2
selectt1.b,/*+mapjoin(t2)*/t2.b2fromtest1t1jointest2t2ont1.a=t2.a2;

--Presto����BroadcastJoin��Broadcast�ı�Ϊtest1��test3
selectt1.b,/*+mapjoin(t1,t3)*/t2.b2,t3,b3fromtest1t1jointest2t2ont1.a=t2.a2jointest3t3ont1.a=t3.a3;

��ԭ�� Presto ��֧��ֵ��ַ��֮��ʽת��Ϊ�˼��ݲ��ϰ��ʹ��ʽת��û�� Presto ��ǿ��֧�� Hive �﷨��ʽת��Ĺ��ܡ�

�� Presto ��ʽת��ʾ��ɫ��ʾ֧�ִ� Source Type �� Target Type ��ʽת��հ׸��ʾ��֧��֮��ʽת��

2.2 Query ��Ϣ�־û�

Presto �� Event Listener �ṩ��صĽӿڣ��ڲ�ѯִ��ɺ��ȡ��ͬγ�ȵ� Metrics ��Ϣ��ѯִ��ڼ��׶εĺ�ʱ��ڴ�/CPU ��ġ�Stage/Task/Operator ͳ��Ϣ�ȣ�� Presto ��չʵ�� Event Listener �ӿڣ��Щ Query Metrics ��Ϣ�־û��ش��Լ��Ϣ��У��ں��ⶨλ��ά��ơ��Դͳ�ơ�HBO �ȡ�

2.3 Iceberg Connector ��ǿ

��Ѷ��ʵʱ��-��ݺ��ϵͳ DLA ʹ�� Iceberg ��Ϊ��֯��ʽ��û��󣬿��ͨ�� Presto Iceberg Connector ��뼶�Ĳ�ѯ��顣�� Presto Ҳ�� Iceberg Connector ��һϵ�еĹ��ǿ�� ORC �洢��ʽ֧�֣�PR-16391��Timestamp With Time Zone ��֧�֡�Alluxio Local Cache ֧�֣�PR-16942��д�루PR-16983��Bugfix��PR-16959��PR-16968 ��ȣ��󲿷ֵ��Ի��޸�Ҳ�ѹ��׵�� PrestoDB ��

3 �ȶ��

3.1 JVM ��

Presto ��еĹ��У�� Worker Full GC ͣ��ʱ��⣬Ϊ�� Presto �� JDK �汾�� 11��ο�� issue 14873�� JVM ��˳��ĵ��ţ��ʵ��-XX:GCLockerRetryAllocationCount ��ֵ��Ĭ��Ϊ 2�� Full GC �ĸ��ʾ�� OOM ��Ŀǰ�ڶ��ڴ�Ϊ 180GB��CPU 96 �˵�Ӳ��£�� Presto Worker Full GC ��ƽ��ʱ��ʮ�뽵�͵��ʮ����ͣ��ʱ��½��

3.2 Full GC Query Killer

Presto �Ĳ�ѯ�ڴ�ʹ��ͳ��ԱȽϴ��ȵģ��ܻᵼ��ԭ�� LowMemoryKillerPolicy ��ĳЩ��²��ȷ�� Kill ��ѯ�� Presto ��еĹ��о��Ƶ��Worker ��ڴ��Ѿ��ӽ��ˣ�� Presto �� Memory Pools ��ʾ��н϶�Ŀ��ڴ棬��޷��ʱ�� LowMemoryKillerPolicy��Ϊ�˾�� Presto �� Full GC Query Killer��ò��Կ�� Worker Full GC ֮�� Worker ��ڴ�ʹ�û��Ǵ��ڸ�ֵ�� Kill ��ڸ� Worker ��ʹ��ڴ�Ĳ�ѯ��Ҫע��ǣ��ò��Ӧ�ó��ִ�еģ�� Worker ��ϵ� Full GC �� OOM��ô Full GC Query Killer ��Ҳ�ò��Ӧ��ʱ��Ҫͨ��ֶη��λ�� Full GC �� OOM ��ԭ��Գ��׽��⡣

Full GC Query Killer ��صĴ��Ҳ��ڽ��ڹ�� PrestoDB ��ӭ��ҹ�ע��

3.3 ��ļ� ORC ͳ��Ϣ��ȡ�Ż�

Presto �ڶ�ȡ ORC �ļ�ʱ��ȶ�ȡ�ļ�� Stripe ͳ��Ϣ��Ż� ORC ��ݶ�ȡ�� ORC �ļ��Ƚϴ�ͬʱ�ļ��ֱȽ϶��£�StripeStatistics ��ռ�ý϶�� Worker ��ڴ棬��Щ�ڴ��󲻶��ۻ��ռ�� OOM�� Presto ��µķ��⣺��ͬһ�� ORC ��ļ�� Splits��ظ��ȡ�ļ�� Stripe ͳ��Ϣ��

SplitFilerOperator ��ȶ�ȡһ�� ORC �ļ�� Stripe ͳ��Ϣ��µ� ORC Splits��µ� Splits �� Stripe ͳ��Ϣ��Ż��ݶ�ȡ��ַ�� ORC Splits �ַ�� Worker ��ִ��ʱ��ٶ�ȡ Stripe ͳ��Ϣ��ֱ�Ӷ�ȡ��ݼ��ɡ�

��ڲ��Խ��ʾ�÷��ܼ��50%��ҵ� StripeStatistics ��ڴ�ռ�ã�ԭ�� OOM �� ORC ��ѯ��·��ʵ�ֺ�Ҳ��ִ��ɣ�Ŀǰ��С�

4 ��Ż�

4.1 Presto on Alluxio

�� Presto on Alluxio ��Ҫ��ֲ��ģʽ��Presto on Alluxio Cluster �Լ� Presto Alluxio Local Cache��ǰ��ǱȽ�ͨ�õ�һ�ֲ��ʽ��Ҫ��ά��һ�� Alluxio ��Ⱥ��Presto �� Alluxio ��Ⱥ��߷��벿�𣬹��ķ�ʽ��Ч��߱��ض��ʣ��ѯЧ�ʡ�Presto Alluxio Local Cache ��Ǹ��Ĳ��ģʽ��赥�� Alluxio ��Ⱥ��ݻ�� Presto Worker �࣬��ά��㣬ȱ�� Presto Worker ��̬��ݵĳ��»��ʧЧ��Ŀǰ PrestoDB �� Alluxio ��Ҳ�ڳ��ƽ� Local Cache �ķ��ź��Խ��Խ��ơ�

�� Presto ��ݸ�ҵ��ĳ��󣬶� on Alluxio �ķ��ǿ��ԺͿ��չ�ԣ�

֧��Բ�ͬ�� Connector ��ò�ͬ�� Alluxio ·�ɲ��ԣ�� Hive Connector �� Iceberg Connector��
�� Presto �࣬�� Alluxio ��ƣ�֧��÷��ʻ��ڲ�ͬ Alluxio ��Ⱥ�µĿ��ݣ�
��·��ǰ�� Alluxio ��״̬��ԣ�� Alluxio ��񲻿��ʱ�Զ� Failover �� HDFS��

��ò��˵��£�

"clusterUrl"��Alluxio ��Ⱥ�� url ��ַ��ͬ�ļ�Ⱥ��ò�ͬ�� url��
"tables"��Presto ��ѯ��漰��Ŀ��Ѿ��"tables"��д��ڣ�� Presto ��Ӷ�Ӧ�� Alluxio ��Ⱥ�ж�ȡ�ÿ��ݣ��״δ� Alluxio �ж�ȡʱ��δ�л��棬�� Alluxio �Ὣ��ݻ��Ķ�ȡ��ֱ�ӷ��ʻ��棩��û��"tables"��ã�� Presto ��ֱ�ӷ��ʵײ�� HDFS�� Alluxio��"tables"֧�ֿ�/��/��ã�֧��ͨ��

�� Presto on Alluxio ��ߺ󣬲��ѯҵ��õ��20%�� 30%��ݶ�ȡ�ĺ�ʱ��ȱ�С��ѯ��Ҳ��ȶ��

4.2 Presto on K8s

Presto on K8s ��ҵ��ͨ�õ�һ�ֲ��ģʽ��Բο��presto-kubernetes-operator�� Presto ��ҵ��Ӧ��죬 ��Ĳ��ܹ�ͼ��ʾ��

ÿ�� Presto ��Ⱥǰ�˻Ჿ��һ�� CLB ��Ѷ�Ƹ��ؾ��񣬶��ṩͳһ�ķ��ַ��CLB ��˹�� Coordinator Pod��Worker ͨ�� CLB ��ַ�� Coordinator ע�ᣬ�ͻ��Ҳͨ�� CLB �� Presto��

�� Presto ��Ⱥ�е��⻧��Դ��ܱ�֤��Ⱥ��Դ��ޣ�Dedicated Resource��ͨ�� K8s HPA Controller ��֪ Presto Worker �� CPU ��ڴ��Դʹ��ʵ�� Worker Pod �Ķ�̬��ݡ�� Presto ��϶��Ҫ��Դʱ��Զ�̬�� Worker ��⻧��Դ��ޣ��ҵ��⻧�п��е��Դ��Ҳ��Լ��"��"�� Presto ��Ⱥ��ʱ��Զ�̬�� Worker��Դ�ͷŸ��ҵ��⻧ʹ�ã�ʹ��Դ�ص��󻯡�

4.3 Count Distinct Rewrite

Presto �� Count Distinct ʵ��ĳЩ��»��б��⣬Ӱ��ѯ��ܣ�� Left Join ֮�� Count Distinct�� Presto use_mark_distinct ��ã�� Left Join ֮��һ�� Repartitioning��Ȼ��һ�� Stage �� MarkDistinct�� Repartitioning �׶ε� Partition Key �н϶��ظ�ֵ��ô�ͻ��һ�� Stage ��б��⣬Ӱ�� MarkDistinct ��ӵ�ִ��ٶȡ��ܽ� Count Distinct ��д�� Grouping Sets�� Group By �� Repartitioning ǰ��Ԥ�ۺϣ��Ч��б��⡣��Ҳ��Ƶ� issue 12024��ǴӸ� issue ��δ�н��ƵĽ��

Ŀǰ��ͨ�� SuperSQL ��ʵ�� Count Distinct ��/��е� Grouping Sets �ĸ�д��Ķ� Presto �Ĵ��룬��д�Ż��ĳЩ�û��£��ܻ��2 �� 3 ���Ĳ�ѯ��

4.4 Optimized Repartitioning

�� Presto ÿ��ҵ��ѯ Exchange ��ﵽ��ϰ� PB ��Ϊ�� Repartitioning �׶ε��ܣ�� Optimized Repartitioning ��ԣ�

set session optimized_repartitioning=true; �ο� PR-13183

��PartitionedOutputOperator ��CPU ��ļ�� 50%��P90 ��ѯ��ʱ�� 19%��ĳЩ�û��µĲ�ѯ��ӽ� 2 ��ʡ��Դ��ͬʱ��Ҳ�õ��˽ϴ��

5 �ܽ� & δ��

�� SuperSQL�� vision ��ͨ��ں�ƽ̨��칹�ļ��/�칹�Ĵ洢��񡢼��Զ��Ż��һ��ͳһ�Լ��ε�ϵͳ��ά��ڲ��ʹ��ṩ��ͳһ��߼��ں��⻯��ͼ��ʹ��û��ܹ��ӷ��ӵļ��ϸ��н��ѳ��רע��ҵ��߼��ʵ�֡�δ�� Presto �Ĺ��Ҫ�У��﷨��չ��ʱ��/��ͼ��֧�ֵȣ��ά��ǿ��History Server��߿��ã��Ӧִ�У��ڲ�ͬӲ��Ļ��ϣ��ں��Դ Connector ��չ��ǿ�ȣ��֧�ź��Ѷ�ڲ��ҵ��ͬʱ��Ҳ��ӵ��ͻ��Դ��ƪ��µĴ󲿷��ݣ��Ҳ�� 2021 �� 12 �¾��е� PrestoCon ��˷��PrestoCon-2021��ӭ��ҳ��ע��

��ϵ��

�� SuperSQL ��Ȥ��ӭ��ϵ��̽�ּ��ͬʱ��ǳ��ڻ�ӭ־ͬ��ϵĴ��˲ż��룬��ӭ��ѯ��ϵ��ʽ��yikonchen@tencent.com

#��ϳ��Ա ֱ��#

��̸��쳧��ʦ

��20��Ȼ��