Import Chunk
ETL Import Chunk menyimpan data mentah yang diekstrak dalam segmen yang dapat dikelola. Setiap chunk berisi sebagian dari total data dari ETL Import Batch, disimpan sebagai format JSONL (JSON Lines) untuk pemrosesan yang efisien.
Catatan: DocType ini dibuat oleh sistem selama ekstraksi data. Import Chunk tidak dapat dibuat atau dimodifikasi secara manual.
Referensi Kolom
Informasi Chunk
| Kolom | Tipe | Deskripsi |
|---|---|---|
| Name | Auto | Pengenal unik yang dibuat sistem |
| Import Batch | Link | ETL Import Batch induk chunk ini |
| Seq No | Int | Nomor urut chunk ini dalam batch |
| Row Count | Int | Jumlah record data dalam chunk ini |
| Bytes | Int | Ukuran data mentah dalam byte |
| Checksum | Data | Hash verifikasi integritas data |
Penyimpanan Data
| Kolom | Tipe | Deskripsi |
|---|---|---|
| Raw JSONL | Long Text | Data mentah yang diekstrak dalam format JSON Lines |
| Processed | Check | Apakah chunk ini telah diproses oleh transform |
| Error Message | Small Text | Error apa pun yang ditemui selama pembuatan chunk |
Format JSONL
Data mentah disimpan sebagai JSONL (JSON Lines) - satu objek JSON per baris:
{"customerid": 1001, "name": "Acme Corp", "email": "contact@acme.com"}
{"customerid": 1002, "name": "Beta LLC", "email": "info@beta.com"}
{"customer_id": 1003, "name": "Gamma Inc", "email": "sales@gamma.com"}
Pemrosesan Chunk
Selama transformasi, sistem melakukan:
- Membaca setiap chunk secara berurutan berdasarkan Seq No
- Memproses setiap baris JSONL sebagai record terpisah
- Menerapkan pemetaan kolom dan logika bisnis
- Membuat/memperbarui record target DocType
- Mencatat hasil dalam ETL Transform Events
Pertimbangan Performa
Optimasi Ukuran Chunk
- Chunk kecil (100-500 record): Penggunaan memori lebih rendah, lebih banyak operasi commit database
- Chunk besar (2000-5000 record): Penggunaan memori lebih tinggi, lebih sedikit commit
- Disarankan: 1000 record per chunk untuk sebagian besar kasus penggunaan
Manajemen Memori
- Chunk diproses secara berurutan untuk meminimalkan penggunaan memori
- Raw JSONL dimuat ke memori hanya selama pemrosesan
- Koneksi database ditutup setelah setiap chunk
Melihat Data Chunk
Untuk memeriksa data mentah yang diekstrak:
- Navigasikan ke ETL Import Batch
- Klik "View Chunks" untuk melihat semua chunk untuk batch
- Buka chunk individual untuk melihat konten Raw JSONL
- Gunakan pencarian browser untuk menemukan record spesifik dalam chunk
Troubleshooting
Masalah Umum
- Chunk kosong: Periksa filter query sumber dan ketersediaan data
- Ukuran chunk besar: Dapat menyebabkan masalah memori selama transformasi
- JSON yang salah format: Biasanya menunjukkan masalah encoding data sumber
- Error pemrosesan: Tinjau log ETL Transform Event untuk detail
Validasi Data
Sebelum transformasi, verifikasi:
- Jumlah baris chunk sesuai dengan volume data yang diharapkan
- Format JSONL valid (setiap baris adalah JSON yang benar)
- Kolom yang diperlukan ada dalam record sumber
- Tipe data sesuai dengan format yang diharapkan
DocTypes Terkait
- ETL Import Batch: Batch induk yang berisi beberapa chunk
- ETL Transform Run: Memproses chunk selama transformasi
- ETL Transform Event: Mencatat hasil pemrosesan chunk individual