Import Chunk

ETL Import Chunk menyimpan data mentah yang diekstrak dalam segmen yang dapat dikelola. Setiap chunk berisi sebagian dari total data dari ETL Import Batch, disimpan sebagai format JSONL (JSON Lines) untuk pemrosesan yang efisien.

Catatan: DocType ini dibuat oleh sistem selama ekstraksi data. Import Chunk tidak dapat dibuat atau dimodifikasi secara manual.

Referensi Kolom

Informasi Chunk

Kolom Tipe Deskripsi
Name Auto Pengenal unik yang dibuat sistem
Import Batch Link ETL Import Batch induk chunk ini
Seq No Int Nomor urut chunk ini dalam batch
Row Count Int Jumlah record data dalam chunk ini
Bytes Int Ukuran data mentah dalam byte
Checksum Data Hash verifikasi integritas data

Penyimpanan Data

Kolom Tipe Deskripsi
Raw JSONL Long Text Data mentah yang diekstrak dalam format JSON Lines
Processed Check Apakah chunk ini telah diproses oleh transform
Error Message Small Text Error apa pun yang ditemui selama pembuatan chunk

Format JSONL

Data mentah disimpan sebagai JSONL (JSON Lines) - satu objek JSON per baris:

{"customerid": 1001, "name": "Acme Corp", "email": "contact@acme.com"}
{"customerid": 1002, "name": "Beta LLC", "email": "info@beta.com"}
{"customer_id": 1003, "name": "Gamma Inc", "email": "sales@gamma.com"}

Pemrosesan Chunk

Selama transformasi, sistem melakukan:

  1. Membaca setiap chunk secara berurutan berdasarkan Seq No
  2. Memproses setiap baris JSONL sebagai record terpisah
  3. Menerapkan pemetaan kolom dan logika bisnis
  4. Membuat/memperbarui record target DocType
  5. Mencatat hasil dalam ETL Transform Events

Pertimbangan Performa

Optimasi Ukuran Chunk

  • Chunk kecil (100-500 record): Penggunaan memori lebih rendah, lebih banyak operasi commit database
  • Chunk besar (2000-5000 record): Penggunaan memori lebih tinggi, lebih sedikit commit
  • Disarankan: 1000 record per chunk untuk sebagian besar kasus penggunaan

Manajemen Memori

  • Chunk diproses secara berurutan untuk meminimalkan penggunaan memori
  • Raw JSONL dimuat ke memori hanya selama pemrosesan
  • Koneksi database ditutup setelah setiap chunk

Melihat Data Chunk

Untuk memeriksa data mentah yang diekstrak:

  1. Navigasikan ke ETL Import Batch
  2. Klik "View Chunks" untuk melihat semua chunk untuk batch
  3. Buka chunk individual untuk melihat konten Raw JSONL
  4. Gunakan pencarian browser untuk menemukan record spesifik dalam chunk

Troubleshooting

Masalah Umum

  • Chunk kosong: Periksa filter query sumber dan ketersediaan data
  • Ukuran chunk besar: Dapat menyebabkan masalah memori selama transformasi
  • JSON yang salah format: Biasanya menunjukkan masalah encoding data sumber
  • Error pemrosesan: Tinjau log ETL Transform Event untuk detail

Validasi Data

Sebelum transformasi, verifikasi:

  • Jumlah baris chunk sesuai dengan volume data yang diharapkan
  • Format JSONL valid (setiap baris adalah JSON yang benar)
  • Kolom yang diperlukan ada dalam record sumber
  • Tipe data sesuai dengan format yang diharapkan

DocTypes Terkait

  • ETL Import Batch: Batch induk yang berisi beberapa chunk
  • ETL Transform Run: Memproses chunk selama transformasi
  • ETL Transform Event: Mencatat hasil pemrosesan chunk individual

Discard
Save

On this page

Review Changes ← Back to Content
Message Status Space Raised By Last update on