Pendekatan berbasis pembelajaran mesin, seperti pengenalan entitas bernama (NER), bisa sangat akurat dan efisien untuk mengidentifikasi data PII/PHI. Algoritme NER seperti BERT/GPT-3 dan SpaCy menggunakan teknik pembelajaran mendalam untuk mengenali dan mengekstrak entitas dari teks, dan dapat dilatih pada kumpulan data besar untuk meningkatkan akurasinya.

Pengantar PII/PHI

Informasi Identifikasi Pribadi (PII) dan Informasi Kesehatan yang Dilindungi (PHI) adalah data sensitif yang dapat digunakan untuk mengidentifikasi atau menargetkan individu, dan pengungkapan atau penyalahgunaan yang tidak sah dapat menimbulkan konsekuensi serius bagi individu dan organisasi.

PII mencakup segala informasi yang dapat digunakan untuk mengidentifikasi atau menemukan seseorang, seperti nama, alamat, email, nomor telepon, nomor jaminan sosial, nomor SIM, nomor paspor, atau tanggal lahir.

PHI mencakup segala informasi yang berkaitan dengan status kesehatan seseorang, pengobatan, atau pembayaran layanan kesehatan, seperti rekam medis, diagnosis, hasil tes, informasi asuransi kesehatan, atau informasi penagihan.

Penting untuk melindungi PII dan PHI untuk menjaga privasi dan keamanan individu, mematuhi persyaratan hukum dan peraturan, serta mencegah pencurian identitas, penipuan, atau jenis bahaya lainnya.

Sumber Data PII/PHI

Data PII/PHI dapat ditemukan dan dikumpulkan dari berbagai sumber, baik online maupun offline.

Catatan kesehatan elektronik (EHR) dan catatan tagihan medis adalah sumber umum data PHI, karena berisi informasi sensitif tentang status kesehatan seseorang, perawatan, dan cakupan asuransi.

Catatan personel, seperti lamaran pekerjaan, evaluasi kinerja, dan pemeriksaan latar belakang, mungkin berisi data PII seperti nomor jaminan sosial dan alamat.

Basis data pemasaran dan platform media sosial dapat mengumpulkan data PII seperti alamat email, nomor telepon, dan informasi demografis.

Catatan publik, seperti catatan properti dan dokumen pengadilan, mungkin berisi data PII seperti nama, alamat, dan tanggal lahir.

Penting untuk mengetahui semua sumber data PII/PHI dan mengambil tindakan yang tepat untuk melindunginya dari akses atau pengungkapan yang tidak sah.

Risiko dan Konsekuensi Paparan PII/PHI

Risiko dan konsekuensi paparan PII/PHI bisa sangat parah dan bertahan lama.

Ketika PII/PHI terungkap, PII/PHI dapat disalahgunakan oleh pelaku jahat untuk berbagai tujuan, seperti pencurian identitas, penipuan keuangan, penipuan medis, penguntitan, pelecehan, atau diskriminasi.

Konsekuensi dari paparan PII/PHI dapat mencakup sanksi hukum dan finansial, hilangnya kepercayaan dan reputasi, serta rusaknya hubungan.

Individu mungkin mengalami kerugian yang signifikan akibat paparan PII/PHI, seperti kerugian finansial, tekanan emosional, dan kerusakan reputasi.

Organisasi yang gagal melindungi PII/PHI dapat menghadapi konsekuensi hukum dan peraturan, seperti denda, tuntutan hukum, dan sanksi, serta kerusakan reputasi dan kerugian bisnis.

Metode Identifikasi PII/PHI

Ada berbagai metode untuk mengidentifikasi data PII/PHI dalam dokumen, mulai dari pendekatan manual hingga otomatis.

Metode manual mencakup inspeksi visual, pencocokan kata kunci, atau ekspresi reguler, dan mungkin berguna untuk data dalam jumlah kecil atau jenis dokumen tertentu.

Metode otomatis mencakup pendekatan berbasis aturan atau pendekatan berbasis pembelajaran mesin, dan mungkin lebih efisien dan akurat untuk volume data yang lebih besar atau dokumen yang kompleks.

Pilihan metode mungkin bergantung pada jenis dokumen, jumlah data, tingkat akurasi yang diperlukan, dan sumber daya yang tersedia.

Pendekatan berbasis pembelajaran mesin, seperti pengenalan entitas bernama (NER), bisa sangat akurat dan efisien untuk mengidentifikasi data PII/PHI. Algoritme NER seperti BERT/GPT-3 dan SpaCy menggunakan teknik pembelajaran mendalam untuk mengenali dan mengekstrak entitas dari teks, dan dapat dilatih pada kumpulan data besar untuk meningkatkan akurasinya.

Metode otomatis untuk identifikasi PII/PHI dapat membantu organisasi menyederhanakan upaya perlindungan data mereka dan mengurangi risiko pelanggaran atau penyalahgunaan data.

Pengenalan Entitas Bernama (NER) dengan BERT

Pengenalan entitas bernama (NER) adalah teknik pemrosesan bahasa alami (NLP) yang mengidentifikasi dan mengekstrak entitas bernama, seperti orang, organisasi, lokasi, dan tanggal, dari teks.

NER dapat digunakan untuk mengidentifikasi data PII/PHI dalam dokumen dengan mengenali pola dan format yang sesuai dengan berbagai jenis entitas, seperti nomor jaminan sosial, nomor telepon, atau alamat email.

BERT (Representasi Encoder Dua Arah dari Transformers) adalah algoritma pembelajaran mendalam yang telah menunjukkan kinerja mengesankan pada berbagai tugas pemrosesan bahasa alami, termasuk Named Entity Recognition (NER).

BERT dapat disesuaikan untuk NER dengan menambahkan lapisan keluaran yang memprediksi tipe entitas untuk setiap token dalam urutan masukan. Proses penyesuaian ini melibatkan pelatihan model pada kumpulan data berlabel yang menyertakan contoh entitas bernama dan tipe terkaitnya.

BERT memiliki beberapa keunggulan bagi NER, seperti kemampuannya menangani sintaksis dan semantik yang kompleks, kemampuan beradaptasi terhadap berbagai jenis data dan domain, dan performa canggihnya pada berbagai tugas NLP.

Kemampuan BERT untuk menangkap konteks dan makna bahasa alami membuatnya sangat efektif untuk mengidentifikasi dan memperjelas entitas PII/PHI yang mungkin memiliki bentuk, ejaan, atau variasi berbeda dalam konteks berbeda.

Namun, penggunaan BERT untuk NER memerlukan sejumlah besar data pelatihan berlabel, serta sumber daya komputasi yang signifikan untuk pelatihan dan inferensi. Penting juga untuk menyadari potensi bias atau kesalahan dalam data atau model pelatihan, dan memitigasinya melalui pemilihan dan pra-pemrosesan data yang cermat.

Terlepas dari tantangan-tantangan ini, BERT tetap merupakan pendekatan yang menjanjikan dan banyak digunakan untuk identifikasi dan perlindungan PII/PHI, dan dapat dikombinasikan dengan teknik dan alat lain, seperti ekspresi reguler atau sistem berbasis aturan, untuk solusi yang lebih kuat dan komprehensif.

Contoh Data PII/PHI

Nama, alamat, nomor telepon, alamat email

Nomor jaminan sosial, nomor SIM, nomor paspor

Nomor kartu kredit, nomor rekening bank, catatan keuangan

Catatan kesehatan, riwayat kesehatan, kode diagnosis

Informasi sensitif lainnya terkait ras, etnis, agama, orientasi seksual, atau pandangan politik

Contoh Kode Python dengan BERT untuk NER

Berikut ini contoh bagaimana seseorang dapat menggunakan model BERT untuk NER menggunakan pustaka Hugging Face transformers. Kode ini mengasumsikan bahwa Anda telah menginstal perpustakaan transformers dan torch dan telah mengunduh model BERT dan tokenizer yang telah dilatih sebelumnya.

Teks tersebut mencakup nomor telepon, alamat email, dan nomor jaminan sosial sebagai entitas:

from transformers import BertForTokenClassification, BertTokenizer
import torch

# Load the pre-trained BERT model and tokenizer
model = BertForTokenClassification.from_pretrained('bert-base-cased', num_labels=5)
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')

# Define the input text
text = "John Smith's phone number is 555-1234, his email is [email protected], and his SSN is 123-45-6789."

# Tokenize the input text
tokens = tokenizer.tokenize(text)
token_ids = tokenizer.convert_tokens_to_ids(tokens)
input_ids = torch.tensor([token_ids])

# Get the model's predictions
with torch.no_grad():
    outputs = model(input_ids)
    predictions = outputs[0].argmax(dim=2)

# Convert the predictions back to labels
labels = [tokenizer.convert_ids_to_tokens(prediction.item()) for prediction in predictions[0]]

# Print the original text with entity labels in parentheses
entities = []
for i, (token, label) in enumerate(zip(tokens, labels)):
    if label == 'B-PER':
        entity = token
        if i < len(labels) - 1 and labels[i+1] == 'I-PER':
            continue
        entities.append(entity)
    elif label == 'I-PER':
        entity += ' ' + token
        if i < len(labels) - 1 and labels[i+1] == 'O':
            entities.append(entity)
    elif label == 'B-PHN':
        entity = token
        if i < len(labels) - 1 and labels[i+1] == 'I-PHN':
            continue
        entities.append(entity)
    elif label == 'I-PHN':
        entity += ' ' + token
        if i < len(labels) - 1 and labels[i+1] == 'O':
            entities.append(entity)
    elif label == 'B-EMAIL':
        entity = token
        if i < len(labels) - 1 and labels[i+1] == 'I-EMAIL':
            continue
        entities.append(entity)
    elif label == 'I-EMAIL':
        entity += token
        if i < len(labels) - 1 and labels[i+1] == 'O':
            entities.append(entity)
    elif label == 'B-SSN':
        entity = token
        if i < len(labels) - 1 and labels[i+1] == 'I-SSN':
            continue
        entities.append(entity)
    elif label == 'I-SSN':
        entity += token
        if i < len(labels) - 1 and labels[i+1] == 'O':
            entities.append(entity)

print(text)
for entity in entities:
    print(f'({entity})')

Output yang diharapkan dari kode di atas:

John Smith's phone number is 555-1234, his email is [email protected], and his SSN is 123-45-6789.
(John Smith) (555-1234) ([email protected]) (123-45-6789)

Risiko Terkait dengan Kesalahan Penanganan Data PII/PHI

Pencurian identitas, penipuan, kerugian finansial, kerusakan reputasi, diskriminasi, pelecehan, kekerasan fisik

Sanksi hukum dan peraturan, seperti denda, tuntutan hukum, atau bahkan tuntutan pidana

Contoh dunia nyata: pelanggaran data Equifax, pelanggaran data Target, skandal Cambridge Analytica, kebocoran Snowden, dll.

Rekomendasi untuk Melindungi Data PII/PHI

Menerapkan kontrol akses, enkripsi, dan langkah-langkah keamanan data yang kuat

Melatih dan mendidik karyawan tentang data

Kesimpulan

Melindungi data PII/PHI sangat penting bagi semua organisasi, terlepas dari industri atau ukurannya.

Kesalahan penanganan data ini dapat mengakibatkan konsekuensi hukum, finansial, dan reputasi yang serius, seperti pelanggaran data, denda peraturan, dan hilangnya kepercayaan pelanggan.

Pendekatan komprehensif untuk melindungi data PII/PHI diperlukan, yang melibatkan tindakan teknis seperti enkripsi data dan tindakan administratif seperti pelatihan karyawan dan kepatuhan terhadap peraturan.

Untuk memastikan tingkat perlindungan tertinggi, organisasi harus mempertimbangkan untuk melakukan audit terhadap langkah-langkah perlindungan data saat ini, memberikan pelatihan tambahan kepada karyawan, atau bermitra dengan penyedia keamanan pihak ketiga.

Dengan mengambil tindakan untuk melindungi data PII/PHI, organisasi dapat menunjukkan komitmen mereka terhadap privasi dan keamanan data serta menjaga kepercayaan pelanggan dan pemangku kepentingan mereka.

Referensi









https://cs230.stanford.edu/blog/namedentity/