अनुकूलित डेटा समानता API एक उच्च-गति का फजी मिलान और डुप्लीकेशन API है जो वास्तविक दुनिया के गंदे डेटा के लिए बनाया गया है यह आपको लगभग डुप्लिकेट रिकॉर्ड पहचानने और संस्थाओं को पुनःconcile करने में मदद करता है जब मान सटीक रूप से मेल नहीं खाते - टाइपोस, केस में अंतर, विराम चिह्न की कमी, स्पेसिंग मुद्दे, संक्षिप्तियाँ, और छोटे शब्द-क्रम परिवर्तन
अपने स्वयं के फजी मिलान पाइपलाइन बनाने और ट्यून करने के बजाय आप अपने स्ट्रिंग्स (या रिकॉर्ड) को API पर भेजते हैं और समानता स्कोर किए गए मैच प्राप्त करते हैं जिन पर आप भरोसा कर सकते हैं सामान्य आउटपुट में मिलान जोड़े शामिल होते हैं (जैसे "एप्पल" ↔ "एप्पल इंक।"), समानता स्कोर, और संरचित परिणाम जो डेटा Reinigung कार्यप्रवाह, CRM, ETL नौकरियों और एनालिटिक्स पाइपलाइनों में प्लग करने में आसान होते हैं
सामान्य उपयोग मामलों:
सूची को डुप्लीकेट करें: एक डेटा सेट के भीतर डुप्लीकेट खोजें (सभी से सभी का मिलान) और संभावित डुप्लीकेट जोड़े लौटाएं
मास्टर लिस्ट के खिलाफ मिलान करें: एक आने वाली सूची को एक कैनोनिकल सेट से मिलाएं (सूची से मास्टर)
CRM और ग्राहक डेटा स्वच्छता: उन लीड/खातों/कंपनियों को साफ करें जहां डुप्लीकेट रिपोर्टिंग और आउटरीच को तोड़ते हैं
संस्थान समाधान और रिकॉर्ड लिंक: स्रोतों के बीच एक ही वास्तविक दुनिया के संस्थाओं के संदर्भों को कनेक्ट करें
टीमें इसका उपयोग क्यों करती हैं:
बिना किसी समस्या के गंदे पाठ पर काम करता है (प्रत्येक एज मामले के लिए कोई मैन्युअल नियम नहीं)
रैंकिंग और थ्रेशोल्ड के लिए समानता स्कोर (आप तय करते हैं कि कितने सख्त होना है)
स्केल और स्वचालन के लिए बनाया गया (पाइपलाइनों में चलाने के लिए डिज़ाइन किया गया, केवल एक बार के स्क्रिप्ट नहीं)
{"status":"success","response_data":[["Apple","appl!e",1.0]]}
curl --location --request POST 'https://pr197-testing.zylalabs.com/api/11920/optimized+data+similarity+api/22654/dedupe?data=["Apple", "appl!e"]' --header 'Authorization: Bearer YOUR_API_KEY'
| हेडर | विवरण |
|---|---|
Authorization
|
[आवश्यक] होना चाहिए Bearer access_key. जब आप सब्सक्राइब हों तो ऊपर "Your API Access Key" देखें। |
कोई लंबी अवधि की प्रतिबद्धता नहीं। कभी भी अपग्रेड, डाउनग्रेड या कैंसल करें।
Dedupe एन्डपॉइंट मिलान की गई स्ट्रिंग्स के जोड़, समानता स्कोर्स और वैकल्पिक डिडुप्लिकेटेड परिणामों वाला एक JSON ऑब्जेक्ट लौटाता है आउटपुट को निर्दिष्ट कॉन्फ़िगरेशन के आधार पर स्ट्रिंग जोड़ों, इंडेक्स जोड़ों या डिडुप्लिकेटेड स्ट्रिंग्स के रूप में स्वरूपित किया जा सकता है
प्रतिस्पंदन डेटा में प्रमुख क्षेत्र "स्थिति" (जो सफलता या त्रुटि को दर्शाता है) और "प्रतिक्रिया_डेटा" शामिल हैं, जिसमें उपयोगकर्ता के अनुरोध के अनुसार स्वरूपित परिणाम होते हैं, जैसे मेल खाती जोड़े या डुप्लिकेट मुक्त स्ट्रिंग्स
उपयोगकर्ता "config" ऑब्जेक्ट में "similarity_threshold" जैसे पैरामीटर समायोजित करके अनुरोधों को अनुकूलित कर सकते हैं जो मिलान की सख्ती के लिए है "remove_punctuation" प्रसंस्करण के लिए है और "output_format" वांछित परिणाम संरचना चुनने के लिए है
प्रतिक्रियाओं का डेटा परिणामों के एक ऐरे के रूप में व्यवस्थित किया गया है जहां प्रत्येक प्रविष्टि एक मैच या डेडुप्लिकेट की गई स्ट्रिंग के अनुरूप होती है आउटपुट फॉर्मेट के आधार पर प्रविष्टियों में मूल स्ट्रिंग्स इंडिस और समानता स्कोर शामिल हो सकते हैं जिससे कार्यप्रविधियों में आसानी से एकीकरण संभव होता है
विशिष्ट उपयोग के मामलों में ग्राहक सूचियों की डिडुप्लिकेटिंग मास्टर सूची के खिलाफ रिकॉर्ड को सही करना CRM डेटा को साफ करना और डेटा स्रोतों के बीच एंटिटी समाधान करना शामिल है ताकि डेटा की अखंडता और सटीकता सुनिश्चित हो सके
डेटा सटीकता को उन्नत फजी मैचिंग एल्गोरिदम के माध्यम से बनाए रखा जाता है जो टाइपोग्राफिकल गलतियों और केसिंग के अंतर जैसी सामान्य डेटा समस्याओं को ध्यान में रखते हैं एपीआई को गंदे डेटा को प्रभावी ढंग से संभालने के लिए डिजाइन किया गया है जो विश्वसनीय मेलिंग के परिणामों को सुनिश्चित करता है
स्वीकृत पैरामीटर मानों में "similarity_threshold" (0 से 1), "remove_punctuation" (बूलियन), "to_lowercase" (बूलियन), "use_token_sort" (बूलियन), और "top_k" (पूर्णांक या "सभी") शामिल हैं ये पैरामीटर उपयोगकर्ताओं को मैचिंग प्रक्रिया को उनकी विशिष्ट आवश्यकताओं के अनुसार अनुकूलित करने की अनुमति देते हैं
यदि डेडुप छोर आंशिक या खाली परिणाम लौटाता है तो उपयोगकर्ताओं को गुणवत्ता मुद्दों के लिए इनपुट डेटा की जांच करनी चाहिए जैसे अत्यधिक डुप्लिकेट या बहुत कम समानता थ्रेशोल्ड "समानता_थ्रेशोल्ड" को समायोजित करना या इनपुट सूची की समीक्षा करना परिणामों में सुधार करने में मदद कर सकता है
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
8,561ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
11,333ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
6,721ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
6,392ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
650ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
198ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
4,565ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
5,838ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
8,183ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
22ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
696ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
3,059ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
678ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
973ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,480ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
9,983ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,340ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
4,427ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
516ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
91ms