Apa perbedaan antara pengakuan entitas dan resolusi entitas?


Jawaban 1:

Pengakuan entitas yang dinamai adalah pengakuan yang menyebutkan entitas yang dinamai (yaitu, orang, tempat, organisasi, dll.).

Resolusi entitas yang dinamai (alias entitas yang menghubungkan) mengambil satu langkah lebih jauh dan membedakan antara entitas yang bernama sama seperti George W. Bush dan George HW Bush. Atau, dari menyebutkan "Clinton" mencari tahu apakah itu Bill atau Hillary dengan melihat konteks di mana entitas muncul. Prestasi ini dimungkinkan karena resolusi entitas mengambil penyebutan masing-masing entitas dan melihat konteks sekitarnya dan membandingkannya dengan basis pengetahuan (seperti Wikipedia). (Apakah ini tentang kandidat presiden 2016 atau presiden AS ke-42? Apakah entitas tersebut lulus dari Wellesley College atau Georgetown University?)

Beberapa sistem resolusi entitas menambahkan resolusi co-referensi, di mana sistem rantai bersama-sama menyebutkan orang yang sama, seperti: "Hillary Clinton dan Bill Clinton mengunjungi kedai makan selama kampanye presiden 2016 Clinton. Mantan presiden Clinton berkomentar, "Ini adalah okra goreng terbaik yang pernah saya makan dalam waktu yang lama!"

Berdasarkan konteks, resolusi co-referensi harus mencari tahu bahwa "Hillary Clinton" adalah entitas yang sama dengan "Clinton" dan "Bill Clinton" adalah entitas yang sama dengan "Mantan presiden Clinton."

NER sangat umum saat ini dan banyak tersedia baik secara komersial (API Alkimia (sekarang IBM Watson), Rosette, Aylien, Lexalytics, NetOwl) dan sebagai sumber terbuka (Stanford CoreNLP, Open Calais). Resolusi entitas adalah masalah yang lebih sulit.

Berbicara dari pengalaman saya sendiri dengan analitik teks Rosette, dimungkinkan juga untuk mengatur resolusi entitas untuk bekerja dalam berbagai bahasa, dan untuk “belajar” tentang entitas baru — yaitu entitas yang tidak dikenal (= entitas yang tidak muncul dalam basis pengetahuan Anda) apakah dalam satu dokumen atau melintasi kumpulan dokumen.

[Penafian, saya bekerja untuk Teknologi Basis yang memproduksi Rosette SDK dan Rosette API.]


Jawaban 2:

Entitas bernama adalah objek dunia nyata yang dapat dilambangkan melalui nama yang tepat. [1] Entitas yang dinamai dapat berupa orang, organisasi, negara, mata uang dll. Ketika kita melihat teks dalam bentuk kalimat atau paragraf, entitas yang berbeda dapat disebutkan di dalamnya. Sebagai contoh:

Sachin memainkan pertandingan spektakuler di Taman Eden hari ini.

Di sini, Sachin dan Eden Garden dinamai entitas yang berdiri untuk orang dan tempat masing-masing.

Atau

Nube Technologies menyediakan perangkat lunak resolusi entitas [2] bernama Reifier.

Di sini, Nube Technologies dan Reifier adalah entitas yang mewakili perusahaan dan nama perangkat lunak.

Pengakuan Entitas Bernama biasanya dilakukan melalui Pemrosesan Bahasa Alami. Satu teknik sebelumnya melibatkan penandaan bagian-bagian ucapan untuk mengidentifikasi kata benda dan kemudian mengidentifikasi tipe entitas melalui pencocokan pola. Survei teknik NER yang lebih komprehensif dapat ditemukan di sini

NER membantu dalam memahami teks, menjawab pertanyaan, mengelompokkan informasi yang relevan tentang entitas untuk berita, analisis, dll.

Resolusi Entitas [3] di sisi lain menghubungkan entitas yang sama dalam catatan berbeda di mana pengidentifikasi umum tidak ada. Resolusi Entitas berfungsi pada teks terstruktur dalam banyak kasus, seperti catatan pelanggan atau perusahaan, meskipun juga dapat diterapkan pada teks panjang seperti nama produk dan deskripsi.

Misalkan ada rumah sakit yang mendaftarkan seorang pasien. Informasi khas yang dikumpulkan adalah nama depan dan belakang, alamat, nomor telepon, dan tanggal lahir.

Nama Depan: Anne

Nama Belakang: Smith

Alamat: 123, Milwauke Dr, Connecticut

Telepon: (123) 456 7890

Pasien dapat menjalani perawatan dan membangun riwayat kasus. Setelah beberapa tahun, orang tersebut membutuhkan perawatan untuk penyakit baru dan muncul kembali di rumah sakit. Nomor teleponnya mungkin telah berubah, dan kali ini detailnya dapat ditangkap sebagai

Nama Depan: Ann

Nama Belakang: Smith

Alamat: 123 Milwauke Drive, Connecticut

Telepon: (213) 645 7908

Namun, penting bagi rumah sakit untuk mengetahui bahwa mereka adalah individu yang sama. Tetapi sedikit variasi dalam detailnya perlu direkonsiliasi, sehingga sejarah kasus yang efektif dapat dibangun. Tautan ini dikenal sebagai resolusi entitas. Lihat beberapa sampel dan tantangan di sini. [4]

Resolusi Entitas biasanya dilakukan melalui sistem berbasis aturan, meskipun baru-baru ini banyak pekerjaan telah terjadi pada pendekatan berbasis ML / AI termasuk pembelajaran yang mendalam.

Resolusi Entitas adalah teknik dasar yang digunakan dalam penelitian medis, analisis data sensus, deduplikasi catatan CRM, rumah tangga dan fungsi analitik dan kualitas data lainnya. [5]

Catatan kaki

[1] Entitas yang dinamai - Wikipedia

[2] Manajemen Data Master bertenaga AI

[3] Rekam tautan - Wikipedia

[4] Resolusi Badan | Nube

[5] Rekam tautan - Wikipedia