• news_banner

សេវាកម្ម

យន្តការសម្អាតទិន្នន័យ Spark Streaming
(I) DStream និង RDD
ដូចដែលយើងដឹងហើយថា Spark Streaming computation គឺផ្អែកលើ Spark Core ហើយស្នូលនៃ Spark Core គឺ RDD ដូច្នេះ Spark Streaming ត្រូវតែទាក់ទងទៅនឹង RDD ផងដែរ។ទោះជាយ៉ាងណាក៏ដោយ Spark Streaming មិនអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ប្រើ RDD ដោយផ្ទាល់នោះទេ ប៉ុន្តែការសង្ខេបនៃគំនិត DStream DStream និង RDD គឺជាទំនាក់ទំនងរួមបញ្ចូលគ្នា អ្នកអាចយល់បានថាវាជាលំនាំតុបតែងនៅក្នុង Java នោះគឺ DStream គឺជាការពង្រឹង RDD ប៉ុន្តែ អាកប្បកិរិយាគឺស្រដៀងនឹង RDD ។
DStream និង RDD ទាំងពីរមានលក្ខខណ្ឌជាច្រើន។
(1) មានសកម្មភាពផ្លាស់ប្តូរទម្រង់ស្រដៀងគ្នា ដូចជាផែនទី កាត់បន្ថយByKey ជាដើម ប៉ុន្តែក៏មានលក្ខណៈពិសេសមួយចំនួនផងដែរ ដូចជា Window, mapWithStated ជាដើម។
(2) ទាំងអស់មានសកម្មភាព Action ដូចជា foreachRDD រាប់។ល។
គំរូកម្មវិធីគឺស្រប។
(ខ) ការណែនាំអំពី DStream នៅក្នុង Spark Streaming
DStream មានថ្នាក់ជាច្រើន។
(1) ថ្នាក់ប្រភពទិន្នន័យ ដូចជា InputDStream ជាក់លាក់ដូចជា DirectKafkaInputStream ជាដើម។
(2) ថ្នាក់បំប្លែង ជាធម្មតា MappedDStream, ShuffledDStream
(3) ថ្នាក់លទ្ធផល ជាធម្មតាដូចជា ForEachDStream
ពីខាងលើ ទិន្នន័យពីដើម (បញ្ចូល) ដល់ទីបញ្ចប់ (ទិន្នផល) ត្រូវបានធ្វើឡើងដោយប្រព័ន្ធ DStream ដែលមានន័យថាជាធម្មតាអ្នកប្រើប្រាស់មិនអាចបង្កើត និងរៀបចំ RDDs ដោយផ្ទាល់បានទេ ដែលមានន័យថា DStream មានឱកាស និងកាតព្វកិច្ចត្រូវមាន។ ទទួលខុសត្រូវចំពោះវដ្តជីវិតរបស់ RDDs ។
នៅក្នុងពាក្យផ្សេងទៀត Spark Streaming មានការសម្អាតដោយស្វ័យប្រវត្តិមុខងារ។
(iii) ដំណើរការនៃការបង្កើត RDD នៅក្នុង Spark Streaming
លំហូរជីវិតរបស់ RDDs នៅក្នុង Spark Streaming គឺមានភាពរដុបដូចខាងក្រោម។
(1) នៅក្នុង InputDStream ទិន្នន័យដែលទទួលបានត្រូវបានបំប្លែងទៅជា RDD ដូចជា DirectKafkaInputStream ដែលបង្កើត KafkaRDD ។
(2) បន្ទាប់មកតាមរយៈ MappedDStream និងការបំប្លែងទិន្នន័យផ្សេងទៀត ពេលនេះត្រូវបានគេហៅថា RDD ដោយផ្ទាល់ដែលត្រូវនឹងវិធីសាស្ត្រផែនទីសម្រាប់ការបំប្លែង
(3) នៅក្នុងប្រតិបត្តិការនៃថ្នាក់លទ្ធផល លុះត្រាតែ RDD ត្រូវបានលាតត្រដាង អ្នកអាចឱ្យអ្នកប្រើប្រាស់អនុវត្តការផ្ទុកដែលត្រូវគ្នា ការគណនាផ្សេងៗ និងប្រតិបត្តិការផ្សេងទៀត។