अनुकूलित डेटा समानता API एक उच्च-गति का फजी मिलान और डुप्लीकेशन API है जो वास्तविक दुनिया के गंदे डेटा के लिए बनाया गया है यह आपको लगभग डुप्लिकेट रिकॉर्ड पहचानने और संस्थाओं को पुनःconcile करने में मदद करता है जब मान सटीक रूप से मेल नहीं खाते - टाइपोस, केस में अंतर, विराम चिह्न की कमी, स्पेसिंग मुद्दे, संक्षिप्तियाँ, और छोटे शब्द-क्रम परिवर्तन
अपने स्वयं के फजी मिलान पाइपलाइन बनाने और ट्यून करने के बजाय आप अपने स्ट्रिंग्स (या रिकॉर्ड) को API पर भेजते हैं और समानता स्कोर किए गए मैच प्राप्त करते हैं जिन पर आप भरोसा कर सकते हैं सामान्य आउटपुट में मिलान जोड़े शामिल होते हैं (जैसे "एप्पल" ↔ "एप्पल इंक।"), समानता स्कोर, और संरचित परिणाम जो डेटा Reinigung कार्यप्रवाह, CRM, ETL नौकरियों और एनालिटिक्स पाइपलाइनों में प्लग करने में आसान होते हैं
सामान्य उपयोग मामलों:
सूची को डुप्लीकेट करें: एक डेटा सेट के भीतर डुप्लीकेट खोजें (सभी से सभी का मिलान) और संभावित डुप्लीकेट जोड़े लौटाएं
मास्टर लिस्ट के खिलाफ मिलान करें: एक आने वाली सूची को एक कैनोनिकल सेट से मिलाएं (सूची से मास्टर)
CRM और ग्राहक डेटा स्वच्छता: उन लीड/खातों/कंपनियों को साफ करें जहां डुप्लीकेट रिपोर्टिंग और आउटरीच को तोड़ते हैं
संस्थान समाधान और रिकॉर्ड लिंक: स्रोतों के बीच एक ही वास्तविक दुनिया के संस्थाओं के संदर्भों को कनेक्ट करें
टीमें इसका उपयोग क्यों करती हैं:
बिना किसी समस्या के गंदे पाठ पर काम करता है (प्रत्येक एज मामले के लिए कोई मैन्युअल नियम नहीं)
रैंकिंग और थ्रेशोल्ड के लिए समानता स्कोर (आप तय करते हैं कि कितने सख्त होना है)
स्केल और स्वचालन के लिए बनाया गया (पाइपलाइनों में चलाने के लिए डिज़ाइन किया गया, केवल एक बार के स्क्रिप्ट नहीं)
{"status":"success","response_data":[["Apple","appl!e",1.0]]}
curl --location --request POST 'https://pr197-testing.zylalabs.com/api/11920/optimized+data+similarity+api/22654/dedupe?data=["Apple", "appl!e"]' --header 'Authorization: Bearer YOUR_API_KEY'
| हेडर | विवरण |
|---|---|
Authorization
|
[आवश्यक] होना चाहिए Bearer access_key. जब आप सब्सक्राइब हों तो ऊपर "Your API Access Key" देखें। |
कोई लंबी अवधि की प्रतिबद्धता नहीं। कभी भी अपग्रेड, डाउनग्रेड या कैंसल करें।
Dedupe एन्डपॉइंट मिलान की गई स्ट्रिंग्स के जोड़, समानता स्कोर्स और वैकल्पिक डिडुप्लिकेटेड परिणामों वाला एक JSON ऑब्जेक्ट लौटाता है आउटपुट को निर्दिष्ट कॉन्फ़िगरेशन के आधार पर स्ट्रिंग जोड़ों, इंडेक्स जोड़ों या डिडुप्लिकेटेड स्ट्रिंग्स के रूप में स्वरूपित किया जा सकता है
प्रतिस्पंदन डेटा में प्रमुख क्षेत्र "स्थिति" (जो सफलता या त्रुटि को दर्शाता है) और "प्रतिक्रिया_डेटा" शामिल हैं, जिसमें उपयोगकर्ता के अनुरोध के अनुसार स्वरूपित परिणाम होते हैं, जैसे मेल खाती जोड़े या डुप्लिकेट मुक्त स्ट्रिंग्स
उपयोगकर्ता "config" ऑब्जेक्ट में "similarity_threshold" जैसे पैरामीटर समायोजित करके अनुरोधों को अनुकूलित कर सकते हैं जो मिलान की सख्ती के लिए है "remove_punctuation" प्रसंस्करण के लिए है और "output_format" वांछित परिणाम संरचना चुनने के लिए है
प्रतिक्रियाओं का डेटा परिणामों के एक ऐरे के रूप में व्यवस्थित किया गया है जहां प्रत्येक प्रविष्टि एक मैच या डेडुप्लिकेट की गई स्ट्रिंग के अनुरूप होती है आउटपुट फॉर्मेट के आधार पर प्रविष्टियों में मूल स्ट्रिंग्स इंडिस और समानता स्कोर शामिल हो सकते हैं जिससे कार्यप्रविधियों में आसानी से एकीकरण संभव होता है
विशिष्ट उपयोग के मामलों में ग्राहक सूचियों की डिडुप्लिकेटिंग मास्टर सूची के खिलाफ रिकॉर्ड को सही करना CRM डेटा को साफ करना और डेटा स्रोतों के बीच एंटिटी समाधान करना शामिल है ताकि डेटा की अखंडता और सटीकता सुनिश्चित हो सके
डेटा सटीकता को उन्नत फजी मैचिंग एल्गोरिदम के माध्यम से बनाए रखा जाता है जो टाइपोग्राफिकल गलतियों और केसिंग के अंतर जैसी सामान्य डेटा समस्याओं को ध्यान में रखते हैं एपीआई को गंदे डेटा को प्रभावी ढंग से संभालने के लिए डिजाइन किया गया है जो विश्वसनीय मेलिंग के परिणामों को सुनिश्चित करता है
स्वीकृत पैरामीटर मानों में "similarity_threshold" (0 से 1), "remove_punctuation" (बूलियन), "to_lowercase" (बूलियन), "use_token_sort" (बूलियन), और "top_k" (पूर्णांक या "सभी") शामिल हैं ये पैरामीटर उपयोगकर्ताओं को मैचिंग प्रक्रिया को उनकी विशिष्ट आवश्यकताओं के अनुसार अनुकूलित करने की अनुमति देते हैं
यदि डेडुप छोर आंशिक या खाली परिणाम लौटाता है तो उपयोगकर्ताओं को गुणवत्ता मुद्दों के लिए इनपुट डेटा की जांच करनी चाहिए जैसे अत्यधिक डुप्लिकेट या बहुत कम समानता थ्रेशोल्ड "समानता_थ्रेशोल्ड" को समायोजित करना या इनपुट सूची की समीक्षा करना परिणामों में सुधार करने में मदद कर सकता है
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
8,561ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
11,333ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
6,721ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
6,392ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
650ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
198ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
4,565ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
5,838ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
8,183ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
22ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,441ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
144ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
117ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,740ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
325ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
4,904ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
86ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,771ms
सर्विस लेवल:
50%
रिस्पॉन्स टाइम:
454ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
5,965ms