�� Hadoop ��ԭ��ݽ��˼��

InfoQ
2022��8��30��08ʱ

�� | ��

�߻� | Tina

��ԭ��ܹ��£�� Hadoop ��ջ���ƽ̨Ӧ��θ��죿

��ƽ̨�漰��࣬ �ڴ� Hadoop ��ԭ��ݽ��Ĺ��б�̽��ʵ��˲��һ�־��飻ͬʱ��ڶ��洢��ʹ�� JuiceFS��ʵ��ƽ̨��ļ��ƽ̨ʹ�ú��ݵȳ��

1 �� Hadoop ʱ��ļ��ܹ�

��ȼ򵥻ع��´��ݼ��ķ�չ��Ҹ��˵��⣬��ݵķ�չ�� 4 ��ʱ�ڣ�

��һ��ʱ�ڣ�2006 �굽 2008 �ꡣ2008 ��ң�Hadoop ��Ϊ�� Apache ��Ŀ��ʽ�� 1.0 �汾��Ļ��Ҫ�ǻ��ڹȸ��GFS��MapReduce��BigTable ȥ��ġ�

�ڶ��ʱ�ڣ�2009 �굽 2013 ��׶Ρ��Ż��Facebook ��ҵ�Դ��ݵ�Ӧ��Խ��Խ�ࡣ2013 �� Hadoop ��ʽ�� 2.0 �汾�� 2012 ��ʱ��ʼ�Ӵ��ݣ�� Hadoop 1.0 �� Hive ��ģʽ��£��ʱ�о��ģ��ü�̨��Ϳ��Կ��ٽ��ԭ�� SQL Server �� MySQL ��˵��⡣

��׶Σ�2014 �굽 2019 �꣬��ʱ�䷢չ�ķǳ��죬�ڼ� Spark��Flink ��Ϊ�� Apache ��Ŀ��ڵĹ��У��ǻ��ù� Storm�� Storm �ͱ� Flink ��ˡ�

��Ľ׶Σ�� 2020 ��2020 �� Hudi �� Apache ��ҵ��Ϊ��Ŀ֮��Ҹ��ݺ��뵽��չ�ĳ��ڣ��˴��ݵ��ݺ� 2.0 �׶Ρ��ݺ��Ҫ��ص㣬��ͳһ��ʽ�Ĵ洢��ǿ��ʽ�ĸ�ʽ��Լ��ḻ�ļ��档

��ķ�չ��У��Ҫ��м��ص㣬��Ǵ�ҳ�˵��ĸ��V��ģ�ԣ�Volume��ԣ�Velocity��ԣ�Variety��ֵ�ԣ�Value��ڻ��е��V��Veracity��ݵ�׼ȷ�ԺͿ��ȡ��ݵ��һֱ��ڸ��ģ�ϣ��ҵ��һ�ױ�׼��ݺ��ȥ��ݺ� 2.0 ��ֵı�׼��Ϊ�� Hudi��Iceberg ��Щ��Ŀ��ݺ��Ĺ��á�

��˾�� Hadoop �Ǵ��ݵ�һ��ʣ��Ǵ��ݲ��ֻ�� Hadoop��ڷ�չ��ɶ��֮��γɵ�һ�׽��ݼӹ��ʹ�õĽ��⼸�꣬��һ��Ϊ Hadoop ��·�ģ�� Hadoop ��ҵ��˾ Cloudera �� Hortonworks �ĺϲ��У�ԭ��ҵģʽ�޷��Ҳ��ſ��ƹ�Ӧ��ڳɱ��ϵ��ս��Լ� Hadoop ��̬ϵͳ��渴�ӡ�

��ƽ̨��ǰ�ܹ�

��׶Σ��Ĵ��ƽ̨��ͼ��ʾ��˺ܶ࿪Դ��

��㣺Kafka �� Pulsar ��ƽ̨��嶼�õ� Kafka��Kafka ��ԭ��ȽϲPulsar ��֮��ǰ��ԭ��ܹ��Ƶģ��һЩ�ǳ��ʺ� IoT ��ǵ�ҵ�񳡾�Ҳ�Ƚ�ƥ�䣬��ǽ�� Pulsar��
�洢�� HDFS + JuiceFS��
��Ŀǰ��Ҫ�ļ�� Spark ��Hive �� Flink��Щ��ڵ� Yarn �ϡ��ͨ�� Apache Linkis ȥ��ģ�Linkis ��΢��п�Դ�ģ�Ŀǰ��Ƕ� Linkis �õ�Ҳ�ǱȽ��صģ�
ͼƬ��Ҳ��ݿ⣬��һ�� MatrixDB ��һ��ҵ��ʱ��ݿ⣬TiDB �� OLTP �� OLAP �Ļ�ϳ��Ŀǰ��Ҫ�� TP �ĳ��StarRocks �� OLAP �ĳ��
ShardingSphere��Ҫ�� Database Plus �ĸ��ȥ�ѵ��µ��ݿ�ͳһ��ȥ��һ��ز�Ĺ��Ŀǰ��̽��׶Σ��кܶ��Ƕ��ܸ��Ȥ��
Thanos ��һ��ԭ��ļ�ط��Ѿ��ͻ��ļ�ض��ϵ� Thanos ��
Ӧ�ò��ĸ��Ҫ��̨��Ʒ��Ӧ�á��ݿ��ݼ��ɺ��

�ص�

��ͨ��ƽ̨��״��Է��һЩ�ص㣺

��һ����ǱȽ϶�ģ��û��Щ��ǿ��֮�以��Ҳ�Ƚ�ǿ����δ��ѡ�͵�ʱ��ѡ��ԭ��Ƚϳ��
�ڶ����ǵ��ȷ�Ĳ��岨����г��һ�㶼��߷��߷壬��Ƚ϶ࣻ
��ص㣬����ݵ��ȶȻ��϶��ȵ���һ��ֻ��һ�ܵ��ݡ��ǲ��˴��ݣ��е�ʱ��Ҫ��ݣ��Ҳ��Ҫ��õı��棬��ݵ��ʾͲ��˺ܶࡣ��ϵĿǰ��ļ��濴ȱ��һЩ��Ч�Ĺ��ֶΡ��ӽ��񣬻��ϻ�� HDFS Ϊ��д��ݴ��ڣ��Դ��˷ѣ��ؽ��⡣

��ƽ̨��ʹ��

��һ����࣬��Ѷȸߡ�Ч�ʵ���Χ�� Hadoop �Ĵ�� 30 ��õ�Ҳ�� 10 ��֮�ࡣ��Щ��֮��ǿ��ͳһ��ú͹��÷ǳ��ӡ�
�ڶ����ɱ��ά��ɱ��Ƚϸ���Ϊ��ҵ��ȶ��У��ߺ�ʵʱ��Ⱥ��˷ֿ��𡣵��ᵽ��ҵ��ص㣬��ҵ�񲨷岨��ԣ��ʲ��ߡ��Ⱥ��Ҫר��Ա��ά��
����ƽ̨��ݹ����Ŀǰ�缯Ⱥ��ֻ��ͨ�� DistCp ��ʽͬ�� Hadoop ��Ⱥ��޷��ݵ�ͬ��ƽ̨�ͷ��ϡ�
��ģ���ݵİ�ȫ��˽�Ϲ���ڲ�ͬ��ݰ�ȫ��ͨ�û�ͨ�� Ranger ��й��ⰲȫ��ֻ��ͨ��ͬ��Ⱥ��õ�� VPC ��Եķ�ʽ��㣬��ɺܶ��ݹµ��ά��ɱ��

2 ��ԭ��ݽ��˼��

��ȣ��ȼ򵥷��һ��Ҹ��ԭ��

��һ��ԭ��Ƽ��Ļ��ġ��ڴ��õ��簢��ơ� AWS��Ѷ�ơ��ٶ��Ƶ��Ƴ��̣��ʼ�ṩ�Ķ�� IaaS ��ļ��񣬰��ҵ�Ѵ洢��㡢��Щ��Щ��Ķ��װ��ͳһ��ҵֻ��Ҫ��Ϳ��ˡ��˷��֮��Щ��Ƴ��ģ�Ҳ��Ǵ�Ҵ�ͳ��Ʋ��

��ԭ��벻��Ƽ��㣬��ͳ��˵��ԭ��Ƽ�� PaaS ��Ҫ��򿪷��ߵ�һ��Ӧ�á��ԭ��ϰ�װ��һ�ֻ��Ƽ��Ӧ�÷�ʽ�� + ԭ��Ƽ��Ƽ��㣬ԭ��ͳ��ά��ܣ�ͨ��DevOps��΢��ܹ�ʵ��Ӧ�õ��Զ��𣬳��Ƽ��Դʵ��ٵĿռ��¡�Ҳ�ܽ��Ŀǰ��ϵͳ��һЩʹ�㣬��չ�Ժ�ά��Զ��Ƚϲ��Ҫ��ʱ��ȡ�

��ͼ��һ��ԭ��ļ��ʱ��

��һ��׶Σ� AWS ��ԭ��ĸ���� 2006 ��Ƴ�� EC2��׶��Ƿ��׶Σ��ᵽ��Ƽ��׶Σ�
�ڶ��׶Σ��ƻ��׶Σ��ڿ�Դ Docker ��͹ȸ迪Դ�� Kuberneters ֮��Kubernetes ��һ��ĺͿ��չ�Ŀ�Դƽ̨��ڹ��Ӧ�úͷ��ͨ�� Kubernetes �ܹ��Ӧ�õ��Զ��ݣ�
��׶Σ�2015 ��ʱ�� CNCF ��ᣬ��ԭ����ԭ��巢չ�ĸ��á�� Knative �Ŀ�Դ��Knative һ��Ҫ��Ŀ��ƶ��ԭ��ƽ̨�� Serverless ��ű�׼��ڣ��Ѿ��ԭ�� 2.0 �׶Σ�� Serverless ��׶Ρ��Ҹ��ݵķ�չӦ��Ҳ�ǳ�� Serverless �ķ��ȥ��չ���� AWS ��ߵķ��϶�� Serverless��

��ԭ��ܹ�

��һ��ƽ̨��ԭ��֮��ı仯��

�洢�㣬��ԭ��֮��еĴ洢��϶��Ƕ��洢����ļܹ�ͼ�� Lustre��Ļ��ϸ����ҿ��Ϊ��ƴ洢��һ��Ҫ�� JuiceFS ��洢�� Lustre ��зֲ�ʽ�ļ�ϵͳ��ע�� Lustre �ĵ��⣬��ĿǰҲ�ڿ��ʹ��Ʒ��ṩ�Ĳ��ļ�ϵͳ��Ʒ��
��㣬��Ҫ��ڼ��㡢�洢��֮�ϣ�ȫ�� Kubernetes �� Docker ��е��ģ�
��֣��Ǵ��ݼ��ܣ��ǿ��ܻ�� Hive��ֱ�� Spark �� Flink��ͨ�� Hudi ȥ��ݺ� 2.0 �ĵײ��֧�Ų��滻 HDFS��
�м��֣�� Pulsar ��⻹�� Kafka��Ŀǰ Kafka ��ԭ��Ĳ��ر�ã��Ҹ��˸�� Pulsar ȥ�滻 Kafka��Ŀǰ��Ѿ�ʹ�� Linkis �� Spark ��棬�� Flink ��ϡ�ShardingSphere �� 5.1.2 �汾�ո�֧��ԭ��ǻᰴ�ƻ��г��֤��̽��
��ݿ�㣬�� TiDB��StarRocks��MatrixDB��Ŀǰ��ݿ��Ѿ��ԭ��Ƕ�֧�ֶ��洢��һ�黹û�е��ȥ��Ŀǰ�õĻ��Ϊ��ݿ��˵��ǰ��洢�ṩ�� IO ��޷��ݿ��Ҫ�󣬻�ʹ��ݿ��ܴ��ۿۣ�
��ά��棬�� Thanos ��һ�� Loki��Ҫ��ԭ��־�ռ�� Loki �� Thanos ֻ��δ��Ӧ�ûᳯ�Ű��￪Դ�� SREWorks ��룬��ɱ�Ч�ʺͰ�ȫȫ��ۺ��ά��ߣ��Ϳ��԰��ԭ��
�ɹ۲��ԣ��ԭ��Ƚ��ŵĸ����ڴ��һЩ��ȶ�֮�󣬲ſ�ʼ��չ��ԭ��ģ��һ��ʼ��ϣ��ֻ�Ǻ��ϣ��ϡ��һЩ��⣬��һ��⣬��û��ȫ��Ŀɼ��Եļ�ء��ǿ��Ǻ��ΰ��Щ��ĳ�һ��ϵ��ԭ��Ч�ļ�ء�

�ܽ�һ�£��Ҹ��˾��ô��δ��ԭ��Ͼ��ǣ�

ͳһʹ��ԭ��Ĵ洢��Ϊ��ݿ⣩�ĵײ�洢 ;
�� ;
ʹ�� Serverless �ܹ��ϲ�Ӧ�á�

��Ҳ��Ŀǰ��ƽ̨��Ʒ��ս��ƾ߱� Serverless

��Ĳ�Ʒ��û�ʹ�á�

��ԭ��

��һ�㣬��룬��ʹ�� Hadoop ֮��Ҫ��ݻ��Ҫȥ��ϵ��Ӫ�̣��ҿ��ܻ��кܳ��ڣ��ܺõؽ��⡣��ǰ��踶�ѣ��ù��Դ��Ŀǰ��ҵ�񳡾��в��岨�ȵģ��ʱ��Ҫ׼��ȵ�ʱ��Ҫ��ġ��ǻ��ǰ��еĻ��ѵ��壬��ʱ��ȶ��ʧ�ܣ��ڲ��ȵ�ʱ�� 12 ��Сʱ��õģ��ԴҲ��Ҫ��ѵġ��ԭ��֮��ǾͿ��Բ��Ϊ��ˡ�

�ڶ��㣬�Զ��Ϳ��ά�ԡ�Kubernetes ��֧�� DevOps ��ɻ��Ĳ��𷽰��ġ��ǵ��ʵ�ֿ��ٵĲ��𣨱��ͨ�� Helm chart��ά��³��ԭ��ƽ̨�ϣ��ݾͲ��Ҫ��ά��ˡ�

��㣬��洢����洢��Ƽ��Ƴ��Ҫ�Ĳ�Ʒ��洢�ĺô��Զ��ˣ��չ��洢�ռ��ޣ��۱Ƚϵͣ��Ҷ��洢��Ϊ��Ƶ�洢��鵵�洢�ȶ��ִ洢��ͣ��һ��ʹ洢�ɱ��ݾͿ��Դ��ʱ�䡣ͬʱ�ɱ��ɿأ��߿ɿ��Ե�Ҳ��Ƕ��洢��ơ�

��ĵ㣬��ȫ�ͺϹ����ԭ��֮��ʵ��ר��ռ䣬��⻧��룬Զ��֤��Ŀǰ��Ļ��϶��ϵĸ��룬HDFS ��ļ��ҹ��ϵķ�� Ranger��ͨ�� Ranger ȥ�� HDFS ��Ŀ¼Ȩ�ޣ�Ҳ�ܹ�� Hive server��HBase��Kafka ��һЩȨ�ޣ��Զ��ЩȨ�޶��ƫ��һЩ��

��һ�� Kerberos��İ�ȫ�Ի��ߺܶ࣬��кܶ�ĳɱ��κ�һ��Ҫȥ��֤��Ŀǰ��û��ʹ�ù��ǵļ�Ⱥ��ͳ��й�ϵ��ǻ��϶��ģ��ṩ��Ĵ��Ŀ��Ҫ��ṩһЩ��񣬻��Ҫ��ǿ��֤��Ȼ��ݺ��й¶��

��ԭ��ѵ�

��ԭ��ѵ�ͬ��Ҳ�Ǵ��ڵġ�

��һ��ص��ǱȽ϶�ģ�ͬʱ Kubernetes �ĸ��±ȽϿ죬��֮�佻��֮�󣬼��ԡ��Ժ��չ�ԣ��⡣

�ڶ��Դ�ķ��ٷ��䡣Kubernetes ��ͨ�õ��Դ��ȹ��ߣ��㲻ͬ��Դʹ�ó��ݳ��Դʹ�û�Ƚϴ��Ƶ�ʸߣ�ÿ�� pod ��ֻ�Ƚ϶࣬��£�Ŀǰû��ʲô�õķ��Ŀǰ��ڿ� Fluid ��Fluid Ҳʵ�� JuiceFS �� runtime��Ҳ��Ǻ��Ҫȥ��еģ�Fluid Ŀǰ��ǿ��֧�ִ��ݺ� AI �ģ��ֻ�� AI �ĳ��Ϊ��ݺ� AI �ĳ��ǱȽ��ģ��ܼ��͵Ĳ��Fluid �ڼ��Ч�ʺ��ݳ��һЩͻ��ԵĽ�չ��

��㣬��洢Ҳ��һЩ��Ƶġ��洢��Ԫ��ݲ��ܵ͡��ʹ��Բ��һ��Ե��⡣

��һ�㣬��ܼ��Ӧ�á��ģʽ�޷��ݡ�AI ��ܼ��Ӧ��ڼ��Ч�ʡ��ݳ��

3 JuiceFS ��ԭ��̽��

�� JuiceFS ��Դ֮ǰ��Ǿ��Ѿ��ע��һЩ��صĲ��ԣ��Դ��֮��Ǿ��ʹ��ˡ��ߵ�ʱ��Ҳ��һЩȨ�޵��ͼ��С�� bug��ǳ��ٵذ��Ƕ��ˡ�

Ҫ�� HDFS ��Ϊ��չ�Բͬʱ��ǵ��Ƚϴ�HDFS �Ĵ洢�ɱ��Ƚϸߡ��ڴ洢�˼��ݺ��Ŀռ�Ͳ��ˣ��Ҫ�ļ��ǳ��ࡣ��ʱ��ǵ�ҵ��չ��ڳ��ڣ�Ϊ�˾��ܴ��л�ü�ֵ��Ҫ��ܶ��ݡ�� HDFS ��Ҫ��Ǻ��ĳ��з��յġ�

��ϣ��Ȳ�� JuiceFS��֮��Ǻܿ�Ͱ� JuiceFS ��ǵ��ϻ��һЩ�Ƚϴ�ı�� HDFS Ǩ�Ƶ� JuiceFS ���ǵ�ȼü֮��

��Ƕ� JuiceFS �ȽϿ��ص��㣺

��һ�� JuiceFS �Ƕ�Э��ȫ�� POSIX��HDFS �� S3 Э�� Ŀǰ��ǰٷְټ��ݵģ�û��κ��⡣

�ڶ����Ƶ����ҵ��һ��ģ֮��Ϊ�˱��ϵͳ�Է��գ��ֻʹ��һ��Ʒ��̡��һ��ϣ��Ƕ��Ʋ��ġ��£�JuiceFS �Ŀ��ͬ��á�

����ԭ��ĳ����JuiceFS ֧�� CSI��Ŀǰ CSI ��ǻ�û��ã��ǻ��϶�� POSIX ȥ��صģ��ʹ�� CSI �ķ�ʽ��򵥸��ݣ��Ҳ��ԭ��ȥ��չ��û��ϵ� Kubernetes��

JuiceFS ��Ӧ��

�� 1�� HDFS ��ݳ־û��洢

JuiceFS ��Դ֮��ǾͿ�ʼ��԰� HDFS �ϵ��ͬ�� JuiceFS��ʼͬ��ʱ��ʹ�� DistCp�� JuiceFS �� Hadoop SDK ͬ��ǳ��㣬��Ǩ�ƱȽ�˳��֮��Ҫ��ݴ� HDFS Ǩ�Ƶ� JuiceFS �ϣ��Ϊ��һЩ��⡣

��һ�� HDFS �Ĵ��չ�Բ� ����û�а취��ġ��Ҹ��˴�һ��ʼ�Ӵ��ݵ��֪��Ǵ��Ǳ��Ҫ��ϵģ��Ƴ��Ƴ��ĸ�� EMR ϵͳ��ʵ��ڶ� Hadoop ��з�װ��һ��Щ EMR ϵͳ��ȥ Hadoop ��

�ڶ���HDFS ��ԭ����ڵ� HDFS ��ԭ��Ϊ��Ƚ��أ��Ȼ��һֱ��ط��ȥ��ԭ����Ҹ��Ϊ Hadoop �ķ�չ��·��δ��Ӧ��Զ��洢Ϊ��

����洢Ҳ��һЩ�ײ��ܺܺõ�� HDFS API��ԭ��ܸ��̱�Ҳ��ܶ࣬�� list Ŀ¼��Ԫ��ݲ��Ҳ��ͨ�� JuiceFS ��һЩ��٣��ܷǳ��ɹۣ��л��»��Ͽ��̣��ڴ��ǿ��ٵؽ��ǰ�ĳ��ֱ��л�� JuiceFS �ϡ�

�� 2��ƽ̨��ļ��

��Ŀǰ��ϵͳ��ʵʱϵͳ��ƽ̨�Ĺ��ļ��ȫ��Ǵ�� HDFS �ϵģ��Ҫ��ֹͣʹ�� HDFS ��Ҫ��Щ��Ǩ��ߡ�Ŀǰ�ķ�� JuiceFS �ԽӶ��洢��ͨ��Ӧ�ò�ķ��ȫ�� POSIX �ķ�ʽ��ȥ��ҾͿ��޸е�ȥ�� JuiceFS ��ļ��

JuiceFS ��Ǵ󲿷ֵ�Ӧ��󣬵��ЩС��⡣��ǻ�� Python ��֮��Ķ��Ž�ȥ��ʵ��Ѷ�̫��Ϊ Python ��д��С�ļ��ص�ʱ��ǻ��⡣�� Python ��ְ��ļ��ĳ��Ҫ�洢�ڱ��׼��һ��洢��ר��¡�

��֮ǰʹ�� HDFS ��⣺

��һ���� NameNode ѹ�� Full GC ʱ��ʧ�ܵ����Ŀǰ��ʱû��һ��ķ��ǵķ��Ǿ��ڴ棬��ذ��ʱ��һЩ��ԣ��һ��ĸ߷��ڣ��º��ȫ�� HDFS ��⣬��Ϊ��վ�� Java д�ģ�GC �ĳ��û�а취��ġ�

�ڶ��ڿ�ϵͳ��ȥʹ�� HDFS ��ʱ�򣬱��Ⱥ��Ҫ��һ��Ⱥȥ��ļ��ǲ��ʵ�ģ��Ϊ��Ҫ��ͨ��磬��Ⱥ֮��ͨ��Ӧ��ϴ�ͨ��ȫ��û�а취��֤�ġ�Ŀǰ��ǻ��Ͼ��Ⱥ�Ƕ��ά��Լ��Ĺ��ļ��ʵʱƽ̨�� Flink ƽ̨��Ѿ��л�� JuiceFS ��ˣ�Ŀǰ��Ƿǳ�˳��û��ʲô��⡣

��Ŀǰ��д��ǵ��Ⱥ�ģ�û��ֵĲ��ԣ���һЩ��Ե��⣬��Ͳ��ˡ��Ƕ��洢��ǿ��ͬһ�� region ��棬Ӧ�ö��Ƴ��̰��˱��ݡ��ǿ��ܻᷢչ��ƣ�ϣ��ͨ�� JuiceFS ȥ��һЩ�߼��ļ��ĵ��ݿ⣬��һЩ��ĵı��ļ��ڶ��ȥ��ݡ��ʵ��˶��ơ�� region��򣬾Ϳ��Խ��ڵ��ֵ��⡣

�� 3��ݿ�ƽ̨ʹ��

��һ��ƽ̨��ƽ̨֮��ȫ��ͨ�� JuiceFS ȥ��ݡ��ߵĹ��е�һ��·�Գ��ݣ�·�Գ��д��Ƶ��ͼ��ϴ��Щ��ϴ��֮��ֱ�ӽ�� JuiceFS ���ȥ��һЩͬ��͹��һЩ��ݵ�ɸ�飬��õ� PFS ��ǲ��ļ�ϵͳ��ص�� SSD�� GPU ��ʸ��һЩ��Ϊ��洢��ԱȽ��ģ��Ȼ GPU ��ͻ��д��˷ѡ�

ʣ�µ��Ͱ��ϱ��һЩ��ڷ��־��ݣ��һЩ��ƽ̨��Ҫ�ĳ��ص��ź��ݣ��Щ��ݶ��ȥ��һЩ��Ҳ��Щ��һЩ��ȡ��㷨�Ŷ�ȥ��ģ��ѵ��һЩ NLP �ļ��ĸ��ೡ��

�³��ԭ��洢�� - Lustre ��Ϊ�� У�

��ڲ��һ��ڶ��洢��һ�� Lustre ȥ�� JuiceFS ȥ��棬ͨ�� Lustre �Ļ�� JuiceFS ��߶�ȡ�ٶȺͻ��ʡ�

��һ��ô��õĶ��̵ģ��̿��ݡ��Ϊ��ڶ��ڵ�ִ�У��ʲ�̫�ߡ��Ϊ�� JuiceFS Ŀǰ��֧�� P2P �ķֲ�ʽ��棬ֻ֧�ֵ��ڵ�ı��ػ��棬ÿһ��ڵ��ܻ��ܶ��ݡ��Ҳ��ڵ��һЩ��̵�ѹ��Ϊ��ռ��һ��Ĵ��̿ռ䡣

Ŀǰ��ǵķ��ͨ�� Lustre ��Ϊ JuiceFS �Ķ��档��˵�Ǹ��Ҫ��ݴ�С��һ�� 20~30TB �� Lustre �ļ�ϵͳ��ص��ڵ㱾�أ�Ȼ�� Lustre ��ص��Ϊ JuiceFS �Ļ��Ŀ¼�� JuiceFS ��֮�󣬿��첽��浽 Lustre ���Ч��ʲ��ߵ��⣬��߶�ȡ��ܡ�

�� Spark ��洢��ֱ��д��ݵ�ʱ�򣬻��д�� QPS ��ƣ��д��̫��ε��ܻᷢ��¿��ͨ�� JuiceFS ��д��湦�ܰ��д�� Lustre ���첽д��洢��ĳЩ��õġ��һ�� Lustre ��һ��ԭ��ķ��û��˵��и�֪�ģ��û�� pod ��ʱ��Ҫ��ʽдһ��ȥ��˺��Ҳϣ�� JuiceFS ��һЩ��죬�Զ�ȥʶ��洢�� Lustre��Ȼ��Զ�ʵ��һЩ��Ļ��ƣ��Ͳ��Ҫ�û��֪ Lustre �Ĵ��ڡ�

Ŀǰ�� PoC �Ѿ��ɣ�ͨ��˻��ԣ��ǻ��ѹ�⣬Ԥ�ƽ�� Q3 Ӧ�ÿ��ʽ��߸��һЩ��Եҵ��

JuiceFS �ڴ��ԭ��巽��

��巽��ļܹ�ͼ��Կ��Ŀǰ JuiceFS �ͻ��ṩ��ַ�ʽ��Ƕ��õ��

��ͼ��벿��ʾ��ǻ��ж�� Spark��Flink ��Ⱥ��ͨ�� CSI Driver �ķ�ʽ�� JuiceFS ֱ�ӹ��ص��Ⱥ�ϣ��û�� Spark �� Flink ��ʱ�򣬾��ȫ��֪�� JuiceFS ��ˣ��Ķ�д��ͨ��洢��ɡ�

�ⲿ��Ŀǰ��һ��й� shuffle ��⡣��Ϊ Spark ��ڼ��е� shuffle �׶��Ҫ��̣��Ĵ��ļ��д��ڵײ�洢��Ҫ��ϸߡ�Flink ��˵��һЩ��Ϊ��ʽ�ģ��Ҫ��̡�δ��ϣ�� JuiceFS ��ֱ��д�� Lustre ���Ҫ�� JuiceFS ��һЩ��죬ͨ��ͻ��˼��ɵķ�ʽ�� JuiceFS ֱ�Ӷ�д Lustre��û��˵��޸�֪�ˣ�Ҳ�� shuffle �׶εĶ�д��ܡ�

��ͼ�Ұ벿�ֵ�Ӧ��

һ��Ǽ򵥲�ѯһ�� JuiceFS ��ݣ���ͨ�� HiveJDBC ��Ԥ��ͨ�� S3 ��ط�� JuiceFS��

�ڶ��Ǵ��ƽ̨�� AI ƽ̨��ĳ���ȷ�˵ AI ƽ̨��ͬ��ճ��Ҫ��ȡ��ݡ��ݵȣ��Щ��ͨ��ɴ��ƽ̨�ϵ� Spark �� Flink ��ģ��Ѿ��洢�� JuiceFS �Ϊ�˲�ͬ��ƽ̨֮��ܹ��ݣ�� AI ƽ̨�� pod ��ʱ��ͨ�� FUSE �ķ�ʽ�� JuiceFS ֱ�ӹ��ص� pod ��� AI ƽ̨��ͬ�¾Ϳ��ͨ�� Jupyter ֱ�ӷ�� JuiceFS ��һЩģ�͵�ѵ��ͳ�ļܹ��ڲ�ͬƽ̨֮��ظ��ݣ��˿��Ŷӵ�Э��Ч�ʡ�

��Ϊ JuiceFS ʹ�� POSIX ��׼��û��û��Ȩ�޿��ƣ�ͬʱ��Ĭ�� root �û��Ȩ�޲��ùܿء��Ƕ� JuiceFS ��һ��죬ͨ��һ��֤ token ��ļ�ϵͳ�� token ��Ԫ��Ϣ��һЩȨ�޿��Ϣ��ĳЩ��Ҫͬʱ��ʶ�� JuiceFS �ļ�ϵͳ�ĳ��ʹ�� JuiceFS S3 ��ز�� IAM ��ͳһ��Ȩ�޹��

Ŀǰʹ�� JuiceFS ��һЩ��

��һ�㣬��û��û��Ȩ�޹��ܱȽϼ򵥣��ĳЩ��Ĭ��Ϊ root �û��Ȩ�޲��ùܿء�

�ڶ��㣬�� JuiceFS Hadoop SDK ��Ż��Ŀǰ��Ƕ� JuiceFS Hadoop SDK ��Ż��ֶ��Ҫ��ã�juicefs.prefetch��juicefs.max-uploads �� juicefs.memory-size��ڵ�� juicefs.memory-size ��õĹ��һЩ��⣬��õ�Ĭ��ֵ�� 300MB��ٷ��Ľ�� Ĭ��ֵ 4 ��С�Ķ��ڴ棬Ҳ�� 1.2GB��Ŀǰ��Ǵ󲿷��õ� 2GB �Ķ��ڴ棬��Щ��ʹ��˳�� 2GB ��ڴ�Ҳż��д��ʧ�ܣ�HDFS ��ȶ�д�룩��һ�� JuiceFS ��⣬Ҳ�п�� Spark ��߶��洢��ԭ��¡��Ŀǰ��Ҳ�ڼƻ�� Spark �� JuiceFS ��Ժ��һ��һ��ԭ��ȡ��Щ�Ӷ��˹�ȥ��ڱ�֤��ȶ��°��ڴ潵��

��㣬��ܹ��JuiceFS + ��洢 + Lustre��ø��ӣ��ܵĹ��ϵ��࣬��ȶ��Կ��ܻ��һЩ�½��Ҫ��ݴ��Ʊ��ϡ�� Spark �� shuffle write �׶ο��ܻ��ơ�lost task��ı��Ŀǰ��û�ж�λ��Ĵ��ԭ��

ǰ��ᵽ�� JuiceFS + ��洢 + Lustre �ļܹ��һ��̶��˶�д��ܣ��ͬʱҲʹ�üܹ��Ӹ��ӣ��Ӧ��һЩ��ܵĹ��ϵ㡣��˵ Lustre û�к�ǿ��ָ�� Lustre ͻȻ��һ��ڵ㣬��е��񵽵��ܲ��ȶ��ؼ��д Lustre ��ݣ�� Lustre ��ⶪʧ�ˣ��Ƿ��ȶ��ȥ JuiceFS ��ͨ��洢��Ŀǰ�ǲ�ȷ��ģ�Ŀǰ��Ҳ��ԵĲ��ԡ�

4 δ��չ��

�� Flink + Hudi + JuiceFS ��ʵʱ��ݺ��

��Ҫ��һ�� Flink+ Hudi + JuiceFS ��ʵʱ��ݺ��ͼ��Դ��ͨ�� Flink ��Kafka/Pulsar��ʵʱ��д�� Hudi �ͬʱ Hudi ��ݻ��䵽 JuiceFS ��滻��Ŀǰ��ʵʱ��֡�

��ԭ��Զ�ڹ滮

��󣬽��һ��ԭ��Զ�ڹ滮��Ҳ��һ��չ��

��һ��ͳһ��ݹ��ϵͳ��Ϊ��ݺ� 2.0 ʱ��Ҫ��ǰ��ݺ� 1.0 ��е��ں��û��һ��ȽϺõ�ͳһԪ��ݹ��Ŀ¼��ݰ�ȫ�ܿصĿ�Դ��Ʒ�� AWS Glue��AWS Lake Formation��Ŀǰ��һ��Դϵͳ��Ŀ��ϵͳ��һ��ǰ��ݿ⡢��洢��е�Ԫ��ͳһ��Ŀ¼��ͳһ�İ�ȫ�ܿأ��Լ�ͳһ��ݹ��ǰ�ߡ�

�ڶ����졢��ȶ��ͳɱ��ĵײ�洢��Ŀǰ��еĳ��ѵ��ڶ��洢�ϣ��洢��ȶ��ͳɱ��ͬʱ��洢Ҳ�ڳ��Ŀǰ��Ҿ��ԭ��Ҫ��չ��洢��Ҫ��ȷ��ȶ��ǰ��ṩ��õ��ܡ�

ͬʱ S3 ��֧��ǿһ��ˣ��Ŀǰ��ڶ��洢�ļܹ��ƣ��ܺ��ʵ��ǿһ��ԣ��˵��Ϊ��ʵ��ǿһ��ԣ��Ʊ�Ҫ��һЩ��һ��ҪȨ��⡣JuiceFS ԭ��֧��ǿһ��ԣ��ܶ��ڴ��ƽ̨��˵�ǳ��Ѻá�

��㣬��ܡ��Ч��õĲ�ѯ��档��һ��ǰ��ᵽ�ĶԺ��һ��˼��Ŀǰ��һ�廹��ڷ�չ�� ܻ��Ҫ�� 5~10 ��ķ�չ��̡�Databricks��΢��ڳ��ݺ��ϵ�� MPP ��棬ϣ��ܰѺ��һ��ܹ��һ��δ��ķ�չ��򣬵��Ƕ�ʱ��ں��û�а취��һ��г��

��Ŀǰ�ļܹ��䱸��еĲ�ѯ��棬�� Spark��Flink��ϵ��ݿ⣨�� OLTP �ĳ��ʱ��ݿ⡢OLAP ��ݿ⡣ԭ��ϻ��˭��˭��ϲ��ͨ��ͳһ��м��ȥ��ٱ�� Snowflake��Ȼ�Ѿ�֧��ͬʱ��ѯ�ṹ��Ͱ�ṹ��ݣ��δ��˹��漰�ĵķǽṹ��ݣ��ͼƬ��Ƶ��Ӧ��ô֧�֣�Ŀǰ��ǲ�̫��Ϊ��϶��Ժ��һ��չ��Ҳ��Ƶ��˹��ܳ��ǻ��ҵ��һ��ȥ̽��͹��

��ݷ�չ��Ŀ�껹��Ҫ��͵ĳɱ��ߵ��ݷ��Ӷ�ʵ��ҵ��ֵ��

��߼�飺

��ڣ��ݼܹ�ʦ�� ´��ݹ�� 10 �ꣻ��ݼܹ�� 6 �ꣻ��ݼ��⣻Ŀǰ��Ҫ��ƽ��ԭ��ͺ��һ�弼��ء�

��ײ��Ķ�ԭ���� InfoQ ��ȡ��ྫ��ݣ�

��պ��Ƽ�

�� Web ��ľ��̸֮��Ϊʲô�㿪��ҳ��Ӧ�ô�� 14KB��

TypeScript ��⿪��ͼ�ֱ��֮Դ

80 �� Unix ��޸� AWK ��룻��Ϊȫ��͹رձ�Եҵ��С��Ӧƻ��ǰ��ʦ��ﰸ��Q ��Ѷ

Oracle ��ϯִ�й� Larry Ellison ��¹�˾��ţ��Լ��ŵ�ʯͷ