Data Ingestion : Konsep, Macam, Tips, dan Demo MySQL ke BigQuery

  Рет қаралды 5,625

Insinyur Data

Insinyur Data

Күн бұрын

Пікірлер: 42
@TheDitz423
@TheDitz423 3 жыл бұрын
bang untuk incremental copy, saat query dengan where clause apa kita ubah tanggal setiap hari secara manual ? apakah bisa otomatis pake airflow atau crontab dsb?
@InsinyurData
@InsinyurData 3 жыл бұрын
Wah ini pertanyaan yang luar biasa bagus. Seharusnya ini bagian dari video ya. Untuk airflow, kamu bisa pakai yang namanya macro, contohnya pakai “{{prev_ds}}”
@TheDitz423
@TheDitz423 3 жыл бұрын
@@InsinyurData untuk penggunaan macro itu, dia di pake di mana ya pak apakah saat deklarasi DAG di parameter 'schedule_interval' >>('my_dag', 'schedule_interval'= '@daily') as dag: ataukah saat deklarasi variabel extract pada variabel >> sql = MySqlToGoogleCloudStorageOperator( task_id='extract_from_mysql' # nama task sql='SELECT ... FROM', # query-nya ) makasih banyak bang sebelumnya sudah di jawab
@InsinyurData
@InsinyurData 3 жыл бұрын
@@TheDitz423 di dalam query nya. Jadi di dalam WHERE nya dikasih tanggal dari macro itu
@TheDitz423
@TheDitz423 3 жыл бұрын
@@InsinyurData ouhhhh iya iya paham bang heheh, makasih banyak ya bang udah sempetin jawab, terlebih udah sempetin bikin video tutorialnya.. sangat di nantikan next video nya.. mudah2an jadi channel besar.. aamiin
@InsinyurData
@InsinyurData 3 жыл бұрын
@@TheDitz423 siapp. Amiin
@dhanangwibisono9821
@dhanangwibisono9821 3 жыл бұрын
Terima kasih sudah dibuatkan resource belajar pak.
@InsinyurData
@InsinyurData 3 жыл бұрын
semoga manfaat Pak
@rulysubekti3462
@rulysubekti3462 2 жыл бұрын
Terimakasih Videonya
@nurrozikin3040
@nurrozikin3040 3 жыл бұрын
Videonya ngebantu banget buat saya yg lagi belajar DE ..ditunggu kelanjutannya bang ... makasih
@InsinyurData
@InsinyurData 2 жыл бұрын
baru lanjut nih rilis baru, terima kasih dukungannya.
@NovitaSari-xc4iy
@NovitaSari-xc4iy 3 жыл бұрын
Makasih udah bikin konten ini kak, mudah banget dipahami. Ditunggu part selanjutnya, transformasi data di bigquery, spark, dsb.
@InsinyurData
@InsinyurData 2 жыл бұрын
Terima kasih, baru lanjut lagi rilis baru. Transformasi datanya saya lanjutkan ya. Terima kasih masukannya.
@ujangdalim1739
@ujangdalim1739 3 жыл бұрын
thanks udah bikin konten DE, plis lanjutin lagi bang, upload2 lagi🙏
@InsinyurData
@InsinyurData 2 жыл бұрын
Terima kasih, baru lanjut lagi rilis baru. Semoga bermanfaat.
@itsme-sh7dh
@itsme-sh7dh 2 жыл бұрын
lanjut update materinya pak 👍
@InsinyurData
@InsinyurData 2 жыл бұрын
baru saja lanjut nih :)
@FahriFirdausillah
@FahriFirdausillah 2 жыл бұрын
videonya keren om, saya tunggu kelanjutannya.
@muhammadridho3481
@muhammadridho3481 3 жыл бұрын
Ditunggu kelanjutannya pak🙏.. terimakasih pak
@InsinyurData
@InsinyurData 2 жыл бұрын
Terima kasih, baru lanjut lagi rilis baru. Semoga bermanfaat.
@WEN_the_cat_Astonot
@WEN_the_cat_Astonot 2 жыл бұрын
bang tutor sql server ke gcs via airflow dong
@ajiboke7362
@ajiboke7362 Жыл бұрын
Sebelumnya makasi mas Rendy, mau tanya, kalo Navicate Premium itu untuk apa ? Trims
@WEN_the_cat_Astonot
@WEN_the_cat_Astonot 2 жыл бұрын
bang spili setting connection gcp nya yg di airflow please sama dapet in get json file nya
@meirykayuwandini8932
@meirykayuwandini8932 3 жыл бұрын
Ditunggu part selanjutnya 👍
@InsinyurData
@InsinyurData 2 жыл бұрын
Terima kasih, baru lanjut lagi rilis baru. Semoga bermanfaat.
@maulanaahmadmaliki1429
@maulanaahmadmaliki1429 3 жыл бұрын
Lannjut pak untuk data stream dari api ingestion misal pegerakan cuaca atau harga saham
@InsinyurData
@InsinyurData 2 жыл бұрын
Menarik idenya.
@_ruberuby
@_ruberuby 2 жыл бұрын
Halo kak Rendy, terima kasih banyak sudah dibuatkan konten ini, sangat membantu saya yg baru terjun di dunia data engineer. Mau tanya Kak, untuk ingestion dari db source ke gcs apakah cukup menggunakan operator airflow ketika datanya sudah sangat besar? pernah baca bahwa airflow ini cocoknya hanya sbg workflow orchestrator, utk ETL lebih baik menggunakan tools lain. Saya ada case ingestion postgre to gcs menggunakan operator airflow dgn data cukup besar dan mendapatkan error Out of Memory. Apakah Kak Rendy punya pengalaman ingestion menggunakan tools selain operator airflow? Kalau GCP dataflow apakah bisa digunakan sbg ingestion atau hanya utk transformation ya? Terima kasih kak!
@Adhitya_Pratama
@Adhitya_Pratama Жыл бұрын
Izin mas semoga direply ya mas, jadi gini mas, saya kan ada kerjaan tiap hari untuk koneksi mesin finger kemudian datanya ditarik ke sistem informasi untuk divisualisasikan jamnya pada target kolom yang ditentukan.. nah apakah ini termasuk data ingestion? terima kasih.
@statem9357
@statem9357 3 жыл бұрын
Kalau define data type contohnya Gender gitu enaknya pakai ENUM atau pakai VARCHAR sih ? Kalau ENUM kan hanya M/F, kalau VARCHAR kan Male/Felame gitu.. Thanks..
@InsinyurData
@InsinyurData 3 жыл бұрын
pengalaman saya dua2nya nggak jauh beda mas tapi yg enum harusnya ngasih performance lebih bagus sih kalau pake VARCHAR, pastikan kasih length yg secukupnya aja karena gender kan singkat2 aja
@statem9357
@statem9357 3 жыл бұрын
@@InsinyurData kalau penggunan saya selama ini lebih enakan pakai VARCHAR pak, maklum dev Laravel cupu, hehehe.. tinggal bikin trait aja buat define semua enum values (key, value) trus gunakan sesuai kebutuhan.. gitu hehehe
@InsinyurData
@InsinyurData 3 жыл бұрын
@@statem9357 haha sip2 ga masalah sih varchar juga
@hatersbudiman7058
@hatersbudiman7058 2 жыл бұрын
Bang, seberapa penting kah pengaruh teknologi database yg kita gunakan seperti myaql, postgresql, atau mongodb untuk data engineering Terimakasih sudah banyak membantu 🙏
@InsinyurData
@InsinyurData 2 жыл бұрын
MySQL dan Postgres itu di kebanyakan kasus tidak terlalu berbeda, keduanya cocok utk structured data. MongoDB lebih flexible terhadap schema karena datanya dikirim dalam bentuk JSON. Ketika memilih database mesti dipikirkan bagaimana read dan write pattern-nya. Read heavy atau write heavy. Read use casesnya gimana aja query-nya.
@judaspontifex
@judaspontifex 3 жыл бұрын
Pak , kalau source data nya itu mongoDB apakah perlu di transform ke json lagi yah ?
@InsinyurData
@InsinyurData 2 жыл бұрын
Wah dulu saya juga ngurusin ini. Saya tidak sarankan json, karena json itu mahal sekali utk digunakan di data engineering. Mahal disimpan (besar), mahal diquery (berat). Tapi kalau ternyata datanya beda2 bentuk datanya dalam satu table, coba dipisahkan yang seragam. Kalau masih tidak bisa, ini worst case sekali, baru pakai Json.
@judaspontifex
@judaspontifex 2 жыл бұрын
@@InsinyurData baik Pak , agak challenge sih datanya haha, terimakasik pak saranya.
@mirqonte
@mirqonte 3 жыл бұрын
AKu mau tanya. mysql_connection_id ini didapatnya dari mana ya? Apakah itu sesuatu yg kita definisikan (ditaro di file terpisah) atau bisa kita lihat dari setting mysql databasenya? Trus, untuk write ke BQ itu ngga perlu pake credential lagi atau gimana? Makasii.
@InsinyurData
@InsinyurData 3 жыл бұрын
wah ini pertanyaan bagus lagi. saya blm jelasin bagian sini dengan baik. Jadi, connection_id itu dibikin dari fitur Admin -> Connections. Detailnya di sini airflow.apache.org/docs/apache-airflow/stable/howto/connection.html Baik MySQL maupun BigQuery dua2nya perlu connection id. kalau MySQL, kita perlu isi user name, password, ip address. Kalau BigQuery, kita perlu isi service account key json-nya. cloud.google.com/iam/docs/creating-managing-service-account-keys
@mirqonte
@mirqonte 3 жыл бұрын
@@InsinyurData Terima kasih kak atas jawabannya! Aku sudah bisa bikin automated workflow sekarang. Btw, ada yang mau aku tanyakan lagi. Kemarin2 sempat googling tapi belum menemukan jawaban yang pas: Jadi, saat ini DAG aku sudah jalan tanpa error. Kebetulan, aku bikin task untuk extract dari mysql -> GCS dan dari GCS->BigQuery. Statusnya untuk setiap task juga success. Nah, permasalahannya, ternyata untuk task gcs_to_bq, ternyata rownya nggak ke-insert. Padahal dari sourcenya di gcs ada datanya (dalam bentuk csv) dan nggak ada pesan error. Kesannya kayak tasknya jalan tapi nggak ngapa2in gitu. Destination table-nya sudah ada. Di log nya juga ga ada berapa row yang diproses dan nggak ada error aja, udah. date macros-nya juga sudah aku set benar. Karena kenyataannya ada beberapa task yang sama dalam 1 DAG yang jalan sempurna. Apakah kakak pernah mengalami hal tersebut? Itu kira2 kenapa ya kak? Lalu, ada gak sih fungsi khusus di Airflow untuk otomatis ngecek data completeness? Terima kasiiih
Columnar Database dan File Format: Data Engineer Wajib Paham!
24:04
Insinyur Data
Рет қаралды 1,7 М.
Бенчик, пора купаться! 🛁 #бенчик #арти #симбочка
00:34
Симбочка Пимпочка
Рет қаралды 3,9 МЛН
НИКИТА ПОДСТАВИЛ ДЖОНИ 😡
01:00
HOOOTDOGS
Рет қаралды 2,9 МЛН
Elza love to eat chiken🍗⚡ #dog #pets
00:17
ElzaDog
Рет қаралды 10 МЛН
버블티로 부자 구별하는법4
00:11
진영민yeongmin
Рет қаралды 26 МЛН
SQL Databases with Pandas and Python - A Complete Guide
16:59
Rob Mulla
Рет қаралды 132 М.
End-to-End Big Data Project: Architecture, Implementation, and Deployment
1:36:04
Top AWS Services A Data Engineer Should Know
13:11
DataEng Uncomplicated
Рет қаралды 171 М.
dbt : Transformation Tool yang Makin Ngetrend
54:40
Insinyur Data
Рет қаралды 2,9 М.
What is ETL | What is Data Warehouse | OLTP vs OLAP
8:07
codebasics
Рет қаралды 424 М.
Ekonomi RI Dilanda Krisis Daya Beli
5:32
CNBC Indonesia
Рет қаралды 21 М.
Бенчик, пора купаться! 🛁 #бенчик #арти #симбочка
00:34
Симбочка Пимпочка
Рет қаралды 3,9 МЛН