Home / Technology Explained / Apa Perbedaan Antara ASCII dan Teks Unicode?

Apa Perbedaan Antara ASCII dan Teks Unicode?

ASCII dan Unicode adalah standar yang mengacu pada representasi digital teks, khususnya karakter yang menyusun teks. Namun, kedua standar ini sangat berbeda, dengan banyak properti yang mencerminkan urutan pembuatannya masing-masing.

Amerika versus Alam Semesta

American Standard Code for Information Interchange (ASCII), tidak mengejutkan, melayani audiens Amerika, menulis dalam alfabet Inggris. Ini berhubungan dengan huruf tanpa aksen, seperti AZ dan az, ditambah sejumlah kecil simbol tanda baca dan karakter kontrol.

Huruf standar alfabet Latin dalam bentuk huruf besar dan kecil

Secara khusus, tidak ada cara untuk merepresentasikan kata pinjaman yang diadopsi dari bahasa lain, seperti kafe dalam ASCII, tanpa membuatnya miring dengan mengganti karakter beraksen (mis., kafe). Ekstensi ASCII yang dilokalkan dikembangkan untuk memenuhi kebutuhan berbagai bahasa, tetapi upaya ini membuat interoperabilitas menjadi canggung dan jelas memperluas kemampuan ASCII.

Sebaliknya, Universal Coded Character Set (Unicode) terletak di ujung skala ambisi. Unicode berusaha untuk melayani sebanyak mungkin sistem penulisan di dunia, sejauh itu mencakup bahasa kuno dan kumpulan simbol ekspresif favorit semua orang, emoji.

Kumpulan Karakter atau Pengodean Karakter?

Secara sederhana, himpunan karakter adalah pilihan karakter (mis., AZ) sedangkan pengkodean karakter adalah pemetaan antara himpunan karakter dan nilai yang dapat direpresentasikan secara digital (mis., A = 1, B = 2).

Standar ASCII secara efektif adalah keduanya: ini mendefinisikan kumpulan karakter yang diwakilinya dan metode untuk memetakan setiap karakter ke nilai numerik.

Sebaliknya, kata Unicode digunakan dalam beberapa konteks berbeda dengan arti yang berbeda. Anda dapat menganggapnya sebagai istilah yang mencakup semua, seperti ASCII, untuk merujuk ke kumpulan karakter dan sejumlah pengkodean. Namun, karena ada beberapa pengkodean, istilah Unicode sering digunakan untuk merujuk pada kumpulan karakter secara keseluruhan, daripada bagaimana mereka dipetakan.

Ukuran

Karena cakupannya, Unicode mewakili lebih banyak karakter daripada ASCII. ASCII standar menggunakan rentang 7-bit untuk menyandikan 128 berbeda karakter. Unicode, di sisi lain, sangat besar sehingga kita perlu menggunakan terminologi yang berbeda hanya untuk membicarakannya!

Unicode melayani 1.111.998 yang dapat dialamatkan poin kode. Titik kode secara kasar dianalogikan dengan ruang yang disediakan untuk karakter, tetapi situasinya jauh lebih rumit daripada saat Anda mulai mempelajari detailnya!

Perbandingan yang lebih berguna adalah berapa banyak skrip (atau sistem penulisan) yang saat ini didukung. Tentu saja, ASCII hanya menangani alfabet Inggris, pada dasarnya skrip Latin atau Romawi. Versi Unicode yang diproduksi pada tahun 2020 melangkah lebih jauh: ini mencakup dukungan untuk total 154 skrip.

Kotak yang menampilkan berbagai emoji wajah manusia dengan warna kulit berbeda

Penyimpanan

Rentang 7-bit ASCII berarti bahwa setiap karakter disimpan dalam satu byte 8-bit; bit cadangan tidak digunakan dalam ASCII standar. Hal ini membuat penghitungan ukuran menjadi sepele: panjang teks, dalam karakter, adalah ukuran file dalam byte.

Anda dapat mengonfirmasi ini dengan urutan perintah bash berikut. Pertama, kami membuat file yang berisi 12 huruf teks:

$ echo -n 'Hello, world' > foo

Untuk memeriksa bahwa teks ada dalam pengkodean ASCII, kita dapat menggunakan mengajukan perintah:

$ file foo
foo: ASCII text, with no line terminators

Akhirnya, untuk mendapatkan jumlah pasti byte yang ditempati file tersebut, kami menggunakan stat perintah:

$ stat -f%z foo
12

Karena standar Unicode menangani rentang karakter yang jauh lebih besar, file Unicode secara alami membutuhkan lebih banyak ruang penyimpanan. Berapa tepatnya tergantung pada pengkodean.

Mengulangi set perintah yang sama dari sebelumnya, menggunakan karakter yang tidak dapat direpresentasikan dalam ASCII, memberikan hal berikut:

$ echo -n '€' > foo
$ file foo
foo: UTF-8 Unicode text, with no line terminators
$ stat -f%z foo
3

Karakter tunggal itu menempati 3 byte dalam file Unicode. Perhatikan bahwa bash secara otomatis membuat file UTF-8 karena file ASCII tidak dapat menyimpan karakter yang dipilih (€). UTF-8 sejauh ini merupakan pengkodean karakter yang paling umum untuk Unicode; UTF-16 dan UTF-32 adalah dua pengkodean alternatif, tetapi penggunaannya jauh lebih jarang.

UTF-8 adalah pengkodean lebar-variabel, yang berarti menggunakan jumlah penyimpanan yang berbeda untuk titik kode yang berbeda. Setiap titik kode akan menempati antara satu dan empat byte, dengan maksud bahwa karakter yang lebih umum memerlukan lebih sedikit ruang, menyediakan jenis kompresi bawaan. Kerugiannya adalah bahwa menentukan persyaratan panjang atau ukuran dari suatu potongan teks menjadi jauh lebih rumit.

ASCII Adalah Unicode, tetapi Unicode Bukan ASCII

Untuk kompatibilitas mundur, 128 titik kode Unicode pertama mewakili karakter ASCII yang setara. Karena UTF-8 menyandikan masing-masing karakter ini dengan satu byte, teks ASCII apa pun juga merupakan teks UTF-8. Unicode adalah superset dari ASCII.

Namun, seperti yang ditunjukkan di atas, banyak file Unicode tidak dapat digunakan dalam konteks ASCII. Karakter apa pun yang di luar batas akan ditampilkan dengan cara yang tidak terduga, seringkali dengan karakter pengganti yang sama sekali berbeda dari yang dimaksudkan.

Penggunaan Modern

Untuk sebagian besar tujuan, ASCII sebagian besar dianggap sebagai standar warisan. Bahkan dalam situasi yang hanya mendukung skrip Latin — di mana dukungan penuh untuk kompleksitas Unicode tidak diperlukan, misalnya — biasanya lebih nyaman menggunakan UTF-8 dan memanfaatkan kompatibilitas ASCII-nya.

Secara khusus, halaman web harus disimpan dan dikirim menggunakan UTF-8, yang merupakan default untuk HTML5. Ini berbeda dengan web sebelumnya, yang menangani ASCII secara default sebelum digantikan oleh Latin 1.

Standar yang Berubah

Revisi terakhir ASCII terjadi pada tahun 1986.

Sebaliknya, Unicode terus diperbarui setiap tahun. Skrip, karakter baru, dan, khususnya, emoji baru ditambahkan secara teratur. Dengan hanya sebagian kecil dari alokasi ini, set karakter lengkap kemungkinan akan tumbuh dan tumbuh di masa mendatang.

Terkait: Penjelasan 100 Emoji Paling Populer

emoji-emotikon-wajah-ekspresi

ASCII versus Unicode

ASCII melayani tujuannya selama beberapa dekade, tetapi Unicode sekarang telah secara efektif menggantikannya untuk semua tujuan praktis selain sistem lama. Unicode lebih besar dan, karenanya, lebih ekspresif. Ini mewakili upaya kolaboratif di seluruh dunia dan menawarkan fleksibilitas yang jauh lebih besar, meskipun dengan mengorbankan beberapa kerumitan.

utorrent-skandal
7 Situs Torrent Bawah Tanah untuk Mendapatkan Konten Tanpa Sensor

Anda memerlukan mesin pencari khusus untuk menemukan torrent legal, rumah yang diambil alih, catatan publik, dan bahkan UFO. Masuk ke web gelap.


Tentang Penulis

.

About nomund

Check Also

Apa itu Termostat Nest dan Bagaimana Cara Kerjanya?

Kita semua memiliki momen ketika kita pulang setelah seharian bekerja ke rumah yang membeku atau …