Data Distribution
Data Distribution
Sebelumnya dalam tutorial ini kami telah bekerja dengan jumlah data yang sangat kecil dalam contoh kami, hanya untuk memahami konsep yang berbeda.
Di dunia nyata, kumpulan data jauh lebih besar, tetapi mengumpulkan data dunia nyata bisa jadi sulit, setidaknya pada tahap awal proyek.
How Can we Get Big Data Sets?
Untuk membuat kumpulan data besar untuk pengujian, kami menggunakan modul Python NumPy, yang dilengkapi dengan sejumlah metode untuk membuat kumpulan data acak, dari berbagai ukuran.
Contoh
Buat array yang berisi 250 float acak antara 0 dan 5:
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)Histogram
Untuk memvisualisasikan kumpulan data kita dapat menggambar histogram dengan data yang kita kumpulkan.
Kami akan menggunakan modul Python Matplotlib untuk menggambar histogram.
Contoh
Menggambar histogram:
import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()Result
Histogram Explained
Kami menggunakan array dari contoh di atas untuk menggambar histogram dengan 5 batang.
Bilah pertama menunjukkan berapa banyak nilai dalam array antara 0 dan 1.
Bilah kedua menunjukkan berapa banyak nilai antara 1 dan 2.
Dll.
Yang memberi kita hasil ini:
52 nilai antara 0 dan 1
48 nilai antara 1 dan 2
49 nilai antara 2 dan 3
51 nilai antara 3 dan 4
50 nilai antara 4 dan 5
Note: Nilai array adalah angka acak dan tidak akan menampilkan hasil yang sama persis di komputer Anda.
Big Data Distributions
Array berisi 250 nilai tidak dianggap terlalu besar, tetapi sekarang Anda tahu cara membuat kumpulan nilai acak, dan dengan mengubah parameter, Anda dapat membuat kumpulan data sebesar yang Anda inginkan.
Contoh
Buat array dengan 100.000 angka acak, dan tampilkan menggunakan histogram dengan 100 batang:
import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

Komentar
Posting Komentar