Databoks.id berkolaborasi dengan DQLab mengadakan webinar “Kolaborasi Komunitas Data”. Acara ini merupakan bentuk dukungan terhadap perkembangan data science di Indonesia yang terbuka untuk semua kalangan pendidikan.
Webinar yang berlangsung pada Jumat 3 Maret 2023 ini menghadirkan Yogi Yulianto selaku Data Engineer di Databoks.id sebagai pembicara.
Mengusung topik utama “Kehidupan Seorang Data Engineer di Industri Media”, Yogi menjelaskan data engineering sebagai rangkaian kegiatan yang melibatkan perancangan, pengumpulan, penyimpanan, pengolahan dan analisis data dalam jumlah besar. Tujuannya adalah untuk menyediakan data dan membuat keputusan bisnis yang didukung oleh data.
Ia juga menjelaskan perbedaan tiga profesi ilmu data umum sebagai payung atau profesi ilmu data utama, yaitu data scientist, data engineer, dan data analyst. Meski memiliki perbedaan dalam hal keahlian dan tanggung jawab, ketiga profesi tersebut tetap saling berhubungan dalam menjalankan tugasnya.
“Karena disini kita ingin belajar rekayasa data, maka secara khusus profesi ini akan melakukan proses berupa data cleaning dan ETL (extract, transform, load) dengan sumber data yang berasal dari database, object store dan file system,” ujar Yogi. .
Ia mengatakan, ada beberapa skill dan tools yang dibutuhkan untuk menjadi seorang data engineer. Manajemen database pertama seperti MySQL, Cassandra atau Postgree. Kedua, bahasa pemrograman seperti Python, Java, dan Scala. Ketiga, teknologi cloud seperti AWS dan Azure. Akhirnya, kerangka komputasi Hadoop dan Spark.
Yogi juga menjelaskan beberapa tugas harian seorang Data Engineer di Databoks. Menurutnya, membuat, memelihara, dan memantau konten otomatis dalam proses ETL adalah tugas utama sehari-hari yang terus dilakukan.
“Proses ETL sebenarnya adalah core task atau tugas sehari-hari para data engineer di Databoks. Misalnya kita ingin memuat informasi tentang gempa yang terjadi pada jam 2 dini hari. Jurnalis tidak akan selalu tersedia 24/7 untuk memproduksinya artikel atau informasi. Jadi, data perekayasa melalui monitoring otomatis bisa otomatis membuat konten gempa dari BMKG,” katanya.
Lebih lanjut diungkapkannya, tugas yang dilakukan adalah mendukung analis data untuk mengikis dan membersihkan data dari berbagai sumber. Selain itu, kajian untuk model NLP seperti keyword extractors, sentiment analysis dan summary juga perlu dilakukan untuk mendukung media dalam memberikan informasi yang tepat.
Databoks merupakan bagian dari Katadata yang dikenal sebagai platform berita dan informasi dengan berbagai lini bisnis seperti Katadata.co.id, Katadata Learning Center, Sisi by Katadata. Secara khusus, Databoks.id merupakan portal statistik ekonomi, bisnis, riset, migas, dan industri terbaru dan terlengkap di Indonesia.