Spark Streaming Datenreinigungsmechanismus
(I) DStream an RDD
Wéi mir wëssen, baséiert Spark Streaming Berechnung op Spark Core, an de Kär vum Spark Core ass RDD, sou datt Spark Streaming och mat RDD verbonne muss sinn.Wéi och ëmmer, Spark Streaming léisst d'Benotzer net RDD direkt benotzen, awer abstrakt eng Rei vun DStream Konzepter, DStream an RDD sinn inklusiv Relatiounen, Dir kënnt et als Dekoratiounsmuster am Java verstoen, dat ass, DStream ass eng Verbesserung vun RDD, awer d'Verhalen ass ähnlech wéi RDD.
DStream an RDD hu béid verschidde Konditiounen.
(1) hunn ähnlech Transformatiounsaktiounen, wéi Kaart, reduceByKey, etc., awer och e puer eenzegaarteg, wéi Window, mapWithStated, etc.
(2) all hunn Aktiounen Aktiounen, wéi foreachRDD, zielen, etc.
De Programméierungsmodell ass konsequent.
(B) Aféierung vum DStream am Spark Streaming
DStream enthält verschidde Klassen.
(1) Datenquellklassen, wéi InputDStream, spezifesch wéi DirectKafkaInputStream, etc.
(2) Konversiounsklassen, typesch MappedDStream, ShuffledDStream
(3) Ausgangsklassen, typesch wéi ForEachDStream
Vun uewen ginn d'Donnéeën vum Ufank (Input) bis zum Enn (Output) vum DStream System gemaach, dat heescht datt de Benotzer normalerweis net direkt RDDs generéiere a manipuléiere kann, dat heescht datt den DStream d'Méiglechkeet an d'Verpflichtung huet ze sinn. verantwortlech fir de Liewenszyklus vun RDDs.
An anere Wierder, Spark Streaming huet enautomatesch BotzenFunktioun.
(iii) De Prozess vun der RDD Generatioun am Spark Streaming
De Liewensfloss vun RDDs am Spark Streaming ass rau wéi follegt.
(1) Am InputDStream ginn déi kritt Donnéeën an RDD transforméiert, sou wéi DirectKafkaInputStream, wat KafkaRDD generéiert.
(2) dann duerch MappedDStream an aner Datekonversioun, gëtt dës Kéier direkt RDD genannt entspriechend der Kaartmethod fir d'Konversioun
(3) An der Ausgangsklass Operatioun, nëmmen wann d'RDD ausgesat ass, kënnt Dir de Benotzer déi entspriechend Lagerung, aner Berechnungen an aner Operatiounen ausféieren.