સ્પાર્ક સ્ટ્રીમિંગ ડેટા ક્લિનિંગ મિકેનિઝમ
(I) ડીસ્ટ્રીમ અને આરડીડી
જેમ આપણે જાણીએ છીએ, સ્પાર્ક સ્ટ્રીમિંગ ગણતરી સ્પાર્ક કોર પર આધારિત છે, અને સ્પાર્ક કોરનો મુખ્ય ભાગ RDD છે, તેથી સ્પાર્ક સ્ટ્રીમિંગ પણ RDD સાથે સંબંધિત હોવું જોઈએ. જો કે, સ્પાર્ક સ્ટ્રીમિંગ વપરાશકર્તાઓને સીધા RDD નો ઉપયોગ કરવાની મંજૂરી આપતું નથી, પરંતુ DStream ખ્યાલોના સમૂહનો સારાંશ આપે છે, DStream અને RDD સમાવિષ્ટ સંબંધો છે, તમે તેને જાવામાં સુશોભન પેટર્ન તરીકે સમજી શકો છો, એટલે કે, DStream એ RDD નું ઉન્નતીકરણ છે, પરંતુ વર્તન RDD જેવું જ છે.
DStream અને RDD બંનેમાં ઘણી શરતો છે.
(1) માં સમાન ટ્રાન્સફોર્મેશન ક્રિયાઓ છે, જેમ કે map, reduceByKey, વગેરે, પણ કેટલીક અનન્ય પણ છે, જેમ કે Window, mapWithStated, વગેરે.
(2) બધામાં ક્રિયા ક્રિયાઓ હોય છે, જેમ કે foreachRDD, count, વગેરે.
પ્રોગ્રામિંગ મોડેલ સુસંગત છે.
(B) સ્પાર્ક સ્ટ્રીમિંગમાં DStream નો પરિચય
DStream માં અનેક વર્ગો છે.
(1) ડેટા સોર્સ ક્લાસ, જેમ કે ઇનપુટડીસ્ટ્રીમ, ડાયરેક્ટકાફકાઇનપુટસ્ટ્રીમ જેવા ચોક્કસ, વગેરે.
(2) રૂપાંતર વર્ગો, સામાન્ય રીતે મેપ્ડડીસ્ટ્રીમ, શફલ્ડડીસ્ટ્રીમ
(3) આઉટપુટ વર્ગો, સામાન્ય રીતે જેમ કે ForEachDStream
ઉપરોક્ત પરથી, શરૂઆત (ઇનપુટ) થી અંત (આઉટપુટ) સુધીનો ડેટા DStream સિસ્ટમ દ્વારા કરવામાં આવે છે, જેનો અર્થ એ છે કે વપરાશકર્તા સામાન્ય રીતે સીધા RDDs જનરેટ અને હેરફેર કરી શકતો નથી, જેનો અર્થ એ છે કે DStream પાસે RDDs ના જીવન ચક્ર માટે જવાબદાર બનવાની તક અને જવાબદારી છે.
બીજા શબ્દોમાં કહીએ તો, સ્પાર્ક સ્ટ્રીમિંગ પાસે એક છેઆપોઆપ સફાઈકાર્ય.
(iii) સ્પાર્ક સ્ટ્રીમિંગમાં RDD જનરેશનની પ્રક્રિયા
સ્પાર્ક સ્ટ્રીમિંગમાં RDDs નો જીવનપ્રવાહ નીચે મુજબ રફ છે.
(1) InputDStream માં, પ્રાપ્ત ડેટા RDD માં રૂપાંતરિત થાય છે, જેમ કે DirectKafkaInputStream, જે KafkaRDD જનરેટ કરે છે.
(2) પછી MappedDStream અને અન્ય ડેટા રૂપાંતરણ દ્વારા, આ સમયને રૂપાંતરણ માટે નકશા પદ્ધતિને અનુરૂપ સીધા RDD કહેવામાં આવે છે.
(૩) આઉટપુટ ક્લાસ ઓપરેશનમાં, જ્યારે RDD ખુલ્લું પડે છે, ત્યારે જ તમે વપરાશકર્તાને અનુરૂપ સ્ટોરેજ, અન્ય ગણતરીઓ અને અન્ય કામગીરી કરવા દઈ શકો છો.