Prosedur Big Data dan Machine learning

Prosedur Big Data dan Machine learning

Dengan mesin belajar Anda hanya memasukkan semua data Anda ke dalam algoritma yang bagus dan semuanya akan beres. Analis akan memberitahu Anda bahwa mereka biasanya menghabiskan sekitar 4/5 s dari data mungkin proyek yang tidak menganalisisnya. Dan persentase itu tidak serta merta berubah bila menyangkut pembelajaran mesin. Untuk mendapatkan data dan pembelajaran mesin yang besar, penting untuk memahami jenis analisis yang sesuai dengan data Anda.

Berapa banyak data yang Anda miliki, apakah data numerik atau kategoris, apakah ada hasil yang telah ditentukan sebelumnya atau apakah urutan waktu yang terlibat hanyalah beberapa faktor yang akan mendorong kedua teknik pembelajaran mesin yang Anda butuhkan dan cara yang Anda butuhkan. Untuk menyusun data Anda Memahami pilihan, hambatan dan hambatan potensial terhadap kesuksesan sangat penting jika Anda ingin membantu organisasi menggunakan ilmu data dan pembelajaran mesin secara efektif.

Mungkin perlu dimulai dengan yang kita maksud dengan pembelajaran mesin. Alat analisis pembelajaran mesin telah ada selama beberapa waktu dan secara rutin digunakan oleh analis  hampir pasti terjadi di setiap organisasi besar. Sebenarnya, hampir setiap teknik analisis statistik yang digunakan untuk analisis prediktif adalah contoh pembelajaran mesin.

Teknik seperti regresi, pengambilan keputusan dan analisis clustering semuanya “belajar mesin” meskipun penggunaannya sudah umum selama beberapa dekade. Mari kita lihat lebih dekat regresi linier, mungkin teknik pembelajaran mesin yang paling umum dan mendasar di dunia sekarang ini. Regresi linier telah digunakan untuk mengatasi sejumlah besar masalah dan membuat prediksi yang berguna tentang hal itu.

Regresi linier tidak lebih dari sekedar menggambar garis lurus melalui satu set titik sehingga meminimalkan jarak total antara garis dan setiap titik. Meski tidak setiap teknik pembelajaran mesin mudah dimengerti atau transparan seperti regresi, tak satu pun dari keduanya adalah sihir. Mereka semua memiliki akar dalam proses yang sangat mirip dengan apa yang telah saya jelaskan untuk analisis regresi.

Jadi apa faktor kunci saat mempertimbangkan apakah pembelajaran mesin tepat untuk Anda dan mana yang paling sesuai? Berikut adalah beberapa faktor yang perlu dipikirkan:

Berapa data yang anda punya

Ada dua jenis masalah data, terlalu banyak dan terlalu sedikit. Keduanya muncul sedikit. Teknik analisis statistik bisa mahal untuk dijalankan yang bisa menghasilkan kinerja yang sangat buruk bahkan pada sistem modern bertenaga tinggi seperti cluster Hadoop. Itulah mengapa perlu untuk melatih model pembelajaran komputer pada contoh data.

Kurang dipecahkan adalah situasi di mana Anda tidak memiliki cukup data. Mesin belajar bukanlah sihir dan dalam banyak kasus, dibutuhkan sejumlah besar data untuk membuat model. Jika Anda memiliki, misalnya, 12 bulan data GRP dari pembelian media Anda, Anda tidak memiliki cukup data untuk membuat model yang andal.

12 titik data saja tidak cukup. Selain itu, semakin halus teknik Anda, semakin banyak data yang Anda butuhkan. Jika Anda mencoba membuat model perilaku pengunjung yang sangat dalam, Anda memerlukan setidaknya beberapa baris data pelatihan dan mungkin lebih banyak lagi.

Diawasi atau tidak diawasi

Teknik pembelajaran mesin yang diawasi membutuhkan data yang memberi tahu mereka apa jawaban yang benar. Misalkan, Anda ingin memprediksi pelanggan mana yang akan membeli produk Anda. Jika Anda memiliki kumpulan data yang mencakup perilaku pelanggan memiliki variabel yang menandai pembelian, Anda dapat menggunakan pembelajaran yang diawasi.

Model akan mengetahui faktor mana yang paling prediktif terhadap hasil tersebut. Jika Anda tidak memiliki bendera itu, maka teknik yang diawasi tidak akan berhasil. Tidak semua masalah belajar mesin memerlukan satu set pelatihan dengan jawaban “benar”. Misalkan Anda ingin memahami jenis pelanggan yang Anda miliki. Ada teknik belajar mesin yang bisa “mengelompokkan” data menjadi pengelompokan logis yang kemudian dapat Anda gunakan untuk segmentasi.

Pembelajaran tanpa pengawasan seperti ini sangat ideal untuk masalah terbuka. Penting juga untuk mengetahui bahwa Anda selalu dapat “membuat” seperangkat pelatihan.

Kategoris atau Kuantitatif

Dua jenis data analitik tradisional bersifat kategoris (hal-hal seperti gender, perusahaan, kode pos) dan variabel kuantitatif yang mewakili kuantitas sesuatu. Biasanya ini sederhana ada atau tidaknya sebuah variabel, tapi itu tidak selalu terjadi. Kode pos, misalnya adalah variabel kategoris angka.

Anda tidak memiliki lebih banyak zippiness karena Anda tinggal di 90450 dari 10211. Ada beberapa teknik statistik yang berbeda untuk menangani data kategoris. Beberapa alat dapat bekerja dengan data kategoris atau kuantitatif. Regresi, di sisi lain benar-benar hanya untuk analisis kuantitatif.

Berurutan atau Flat

Data besar tidak hanya lebih besar dari data tradisional, namun seringkali tersusun secara berbeda. Secara khusus, banyak masalah data yang sulit besar, karena memahami data membutuhkan pemahaman tentang urutan atau timing kejadian. Banyak teknik pembelajaran mesin tradisional seperti regresi dan pengelompokan tidak menangani jenis data ini dengan baik. Untuk data dengan urutan atau urutan waktu internal, teknik seperti Markov Chains atau deep learning diperlukan.

Struktur Kompleks atau Data Kolom

ebagian besar data perusahaan tersimpan dalam kolom bagus dan rapi. Itu bagus untuk teknik pembelajaran mesin tradisional persis seperti alat regresi dan pengelompokan yang diharapkan. Tetapi jika data masukan Anda adalah peta topologi, survei geografis, aliran video atau podcast, berarti Anda kurang beruntung dengan teknik tersebut.

Teknik pembelajaran yang mendalam membuat setumpuk jaringan syaraf tiruan untuk menganalisis bentuk dan pola data yang sangat kompleks. Mengetahui data dengan struktur yang kompleks adalah dimana teknik pembelajaran yang dalam benar-benar bersinar beberapa tahun terakhir ini.

Untuk masalah belajar mesin langsung, teknik ini lebih sulit dan belum tentu lebih baik. Tetapi jika Anda harus memecahkan kode struktur data atau pola yang kompleks, itu sangat berharga. Itu sebabnya teknik belajar yang mendalam menjadi sangat menonjol dalam aplikasi seperti pengenalan suara dan wajah, klasifikasi gambar, dan masalah pola yang rumit seperti bermain Go.

Ringkasan

Tidak ada satu teknik pembelajaran mesin “terbaik”. Berapa banyak data yang Anda miliki, apakah Anda memiliki jawaban “benar” dan bagaimana data Anda terstruktur semuanya membuat perbedaan penting dalam potensi pembelajaran mesin dan teknik pembelajaran mesin yang tepat untuk digunakan.

Teknik pembelajaran mesin terbaru dan paling keren untuk data besar tidak mengubah ini. Mereka hanya memperluas jangkauan pembelajaran mesin ke dalam domain di mana alat generasi sebelumnya tidak dapat berjalan.