कुशल मिलान समानता एपीआई वास्तविक दुनिया के अव्यवस्थित डेटा के लिए निर्मित एक उच्च-गति धुंधला मिलान और डुप्लीकेशन एपीआई है यह आपको लगभग समान रिकॉर्ड पहचानने और संस्थाओं को मिलाने में मदद करता है भले ही मान बिल्कुल मेल न खाएं—टाइपो, केस भिन्नताएँ, लापता विराम चिह्न, स्पेसिंग मुद्दे, संक्षेपण और छोटे शब्द क्रम परिवर्तन।
अपनी खुद की धुंधली मिलान पाइपलाइन बनाने और ट्यून करने के बजाय आप अपने स्ट्रिंग (या रिकॉर्ड) एपीआई को भेजते हैं और आपको समानता-संख्यांकित मिलान प्राप्त होते हैं जिन पर आप भरोसा कर सकते हैं सामान्य आउटपुट में मेल खाती जोड़ी (जैसे, “सेब” ↔ “एप्पल इंक।”), समानता स्कोर और संरचित परिणाम होते हैं जिन्हें डेटा सफाई कार्यप्रवाह, सीआरएम, ईटीएल नौकरी और विश्लेषिकी पाइपलाइनों में लगाना आसान होता है।
सामान्य उपयोग के मामले:
सूची को डुप्लीकेट करें: एक डेटा सेट के अंदर डुप्लिकेट खोजें (सबसे सभी मिलान) और संभावित डुप्लिकेट पेयर लौटाएं।
मास्टर सूची के खिलाफ मिलान करें: एक आने वाली सूची को एक मानक सेट से मिलाएं (सूची-से-मास्टर)।
सीआरएम और ग्राहक डेटा स्वच्छता: ऐसे लीड/खाते/कंपनियों को साफ करें जहां डुप्लिकेट रिपोर्टिंग और आउटरीच को तोड़ते हैं।
संस्थान समाधान और रिकॉर्ड लिंकिंग: स्रोतों में एक ही वास्तविक दुनिया की संस्था के संदर्भों को जोड़ें।
टीमें इसका उपयोग क्यों करती हैं:
बॉक्स से बाहर अव्यवस्थित पाठ पर काम करता है (हर एज केस के लिए कोई मैनुअल नियम नहीं)
रैंकिंग और थ्रेशोल्ड के लिए समानता स्कोर (आप चुनते हैं कि कितने सख्त होना है)
स्केल और स्वचालन के लिए बनाया गया (पाइपलाइनों में चलाने के लिए डिज़ाइन किया गया है, सिर्फ एक बार के स्क्रिप्ट के लिए नहीं)
डेडुप एक समग्र-से-समग्र फजी मिलान एंडपॉइंट है जो एकल स्ट्रिंग सूची के भीतर डुप्लिकेट खोजने के लिए है। API कॉल में केवल दो इनपुट की तुलना करने के बजाय, आप एक डेटा सेट भेजते हैं और यह पूरे सेट में समान जोड़े और/या डेडुप्लिकेटेड समूहों को लौटाता है
वास्तविक-विश्व मात्रा के लिए बनाया गया: हर संभव तुलना को मजबूर करने के बजाय, यह ओ(n^2) विस्फोट से बचने के लिए अनुक्रमण और लगभग खोज का उपयोग करता है जबकि उच्च गुणवत्ता वाले मिलान को अभी भी सामने लाता है। इसका उपयोग CRM सफाई, कैटलॉग सामान्यीकरण और संपर्क/कंपनी डुप्लिकेशन के लिए करें
बेंचमार्क: समानता-api/ब्लॉग/गति-बेंचमार्क (1M रिकॉर्ड ~7 मिनट में; सामान्य Python फजी मिलान पुस्तकालयों से तेज)
अनुरोध शरीर (JSON)
data (आवश्यक)
डुप्लिकेट करने के लिए स्ट्रिंग्स का एरे
प्रत्येक अनुरोध के लिए अधिकतम 1000 स्ट्रिंग्स
config (वैकल्पिक)
ट्यूनिंग पैरामीटर रखने वाला वैकल्पिक ऑब्जेक्ट
config.similarity_threshold (संख्या, डिफ़ॉल्ट 0.75)
0 से 1 तक समानता कटऑफ
config.remove_punctuation (बूलियन, डिफ़ॉल्ट true)
मिलान करने से पहले विराम चिह्न हटाएं
config.to_lowercase (बूलियन, डिफ़ॉल्ट true)
मिलान करने से पहले स्ट्रिंग्स को लोअरकेस करें
config.use_token_sort (बूलियन, डिफ़ॉल्ट false)
मिलान करने से पहले प्रत्येक स्ट्रिंग के भीतर टोकन को क्रमबद्ध करें (जब शब्द क्रम भिन्न होते हैं तो मदद करता है)
config.output_format (स्ट्रिंग, डिफ़ॉल्ट string_pairs)
आउटपुट फ़ॉर्मेट। समर्थित मान:
index_pairs
मिलानों की सूची जैसे [i, j, स्कोर] जहां i और j इनपुट डेटा एरे में अनुक्रमांक हैं
string_pairs
मूल इनपुट स्ट्रिंग्स का उपयोग करके मिलानों की सूची जैसे [string_i, string_j, स्कोर]
deduped_strings
डुप्लिकेशन हटाने के साथ स्ट्रिंग्स की सूची (प्रत्येक डुप्लिकेट समूह के लिए एक प्रतिनिधि रखता है)
deduped_indices
मूल डेटा में अनुक्रमांकों की सूची जो डेडुप्लिकेट सेट का प्रतिनिधित्व करती है (प्रत्येक समूह के लिए एक प्रतिनिधि)
membership_map
डाटा के समान लंबाई वाले पूर्णांकों का एरे जहां प्रत्येक स्थिति i उस पंक्ति के डुप्लिकेट समूह के लिए प्रतिनिधि अनुक्रमांक रखती है
row_annotations
प्रतिनिधि जानकारी के साथ प्रति-पंक्ति वस्तुओं का एरे: अनुक्रमांक, मूल_string, rep_index, rep_string, rep के लिए समानता
config.top_k (स्ट्रिंग या पूर्णांक, डिफ़ॉल्ट सभी)
पूर्ण डेडुप के लिए सभी का उपयोग करें, या केवल निकटतम मिलानों को लौटाने के लिए एक सकारात्मक पूर्णांक
उदाहरण अनुरोध
{
"data": ["Microsoft", "Micsrosoft", "Apple Inc", "Apple", "Google LLC"],
"config": {
"similarity_threshold": 0.75,
"remove_punctuation": true,
"to_lowercase": true,
"use_token_sort": false,
"output_format": "string_pairs",
"top_k": "all"
}
}
प्रतिक्रिया
एक JSON वस्तु लौटाता है जिसमें:
स्थिति: सफल या त्रुटि
response_data: चयनित output_format में परिणाम
डिडुप् - एंडपॉइंट फीचर्स
| ऑब्जेक्ट | विवरण |
|---|---|
data |
[आवश्यक] JSON array of strings to deduplicate (max 1000). Example: ["a","b","c"] |
similarity_threshold |
वैकल्पिक Similarity cutoff from 0 to 1. Higher values are stricter (fewer matches). Default is 0.75. |
remove_punctuation |
वैकल्पिक If true, punctuation is removed before matching. Default is true. |
to_lowercase |
वैकल्पिक If true, strings are lowercased before matching. Default is true. |
use_token_sort |
वैकल्पिक If true, tokens in each string are sorted before matching. Useful when word order varies. Default is false. |
output_format |
वैकल्पिक Default: string_pairs Allowed values (and what each means): index_pairs List of matches as [i, j, score] where i and j are indices in the input list. string_pairs List of matches as [string_i, string_j, score] using original strings. deduped_strings List of strings with duplicates removed (one representative per group). deduped_indices List of indices representing the deduplicated set (one representative per group). membership_map Array of length N where entry i is the representative index for the group of data[i]. row_annotations Array of objects (one per input row) with fields: index, original_string, rep_index, rep_string, similarity_to_rep. |
top_k |
वैकल्पिक Limits how many neighbors are returned per input string. Use all for full dedupe, or a positive integer for top matches per row. |
{"status":"success","response_data":[["Apple","appl!e",1.0]]}
curl --location --request POST 'https://zylalabs.com/api/11918/efficient+matching+similarity+api/22651/dedupe?data=["Apple", "appl!e"]' --header 'Authorization: Bearer YOUR_API_KEY'
| हेडर | विवरण |
|---|---|
Authorization
|
[आवश्यक] होना चाहिए Bearer access_key. जब आप सब्सक्राइब हों तो ऊपर "Your API Access Key" देखें। |
कोई लंबी अवधि की प्रतिबद्धता नहीं। कभी भी अपग्रेड, डाउनग्रेड या कैंसल करें। फ्री ट्रायल में 50 रिक्वेस्ट तक शामिल हैं।
डिडुप एンドपॉइंट एक JSON ऑब्जेक्ट लौटाता है जिसमें मेल खाने वाले स्ट्रिंग्स के जोड़े, समानता स्कोर और वैकल्पिक डिडुप्लिकेटेड परिणाम होते हैं आउटपुट को स्ट्रिंग जोड़ों, इंडेक्स जोड़ों या डिडुप्लिकेटेड स्ट्रिंग्स के रूप में प्रारूपित किया जा सकता है जो निर्धारित कॉन्फ़िगरेशन के आधार पर है
प्रतिक्रिया डेटा में मुख्य क्षेत्रों में "स्थिति" शामिल है (जो सफलता या त्रुटि को दर्शाता है) और "प्रतिक्रिया_डेटा," जिसमें उपयोगकर्ता के अनुरोध के अनुसार स्वरूपित परिणाम होते हैं, जैसे मेल खाते जोड़े या डिडुप्लिकेट की गई स्ट्रिंग्स
उपयोगकर्ता "config" ऑब्जेक्ट में पैरामीटर्स को समायोजित करके अनुरोधों को अनुकूलित कर सकते हैं जैसे "similarity_threshold" मिलान की कठोरता के लिए "remove_punctuation" पूर्व-प्रसंस्करण के लिए और "output_format" वांछित परिणाम संरचना चुनने के लिए
प्रतिक्रिया डेटा परिणामों के एक एल्गो में व्यवस्थित है जहां प्रत्येक प्रविष्टि एक मैच या डिडुप्लिकेटेड स्ट्रिंग के अनुसार होती है आउटपुट प्रारूप के आधार पर प्रविष्टियों में मूल स्ट्रिंग्स अनुक्रमांक और समानता स्कोर शामिल हो सकते हैं जो वर्कफ़्लोज़ में आसान एकीकरण की सुविधा प्रदान करते हैं
प्रमुख उपयोग के मामलों में ग्राहक सूचियों को डिडुप्लिकेट करना मुख्य सूची के खिलाफ रिकॉर्ड का मिलान करना CRM डेटा को साफ करना और विभिन्न डेटा स्रोतों में एंटिटी समाधान करना शामिल है ताकि डेटा की अखंडता और सटीकता सुनिश्चित की जा सके
डेटा की सटीकता उन्नत फजी मिलान एल्गोरिदम के माध्यम से बनाए रखी जाती है जो टाइपो और केस में भिन्नताओं जैसी सामान्य डेटा समस्याओं को ध्यान में रखती है एपीआई को गंदे डेटा को प्रभावी ढंग से संभालने के लिए डिज़ाइन किया गया है जिससे विश्वसनीय मिलान परिणाम सुनिश्चित होते हैं
स्वीकृत पैरामीटर मानों में "similarity_threshold" (0 से 1), "remove_punctuation" (बूलियन), "to_lowercase" (बूलियन), "use_token_sort" (बूलियन), और "top_k" (पूर्णांक या "all") शामिल हैं ये पैरामीटर उपयोगकर्ताओं को उनकी विशिष्ट आवश्यकताओं के अनुसार मिलान प्रक्रिया को अनुकूलित करने की अनुमति देते हैं
यदि डिडुप्लीकेट एंडपॉइंट आंशिक या खाली परिणाम लौटाता है तो उपयोगकर्ताओं को गुणवत्ता समस्याओं जैसे अधिक डुप्लिकेट या बहुत कम समानता थ्रेशोल्ड के लिए इनपुट डेटा की जांच करनी चाहिए "समानता_थ्रेशोल्ड" को समायोजित करना या इनपुट सूची की समीक्षा करना परिणामों में सुधार करने में मदद कर सकता है
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
22ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
417ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,217ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,463ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,407ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
108ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,262ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,815ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,462ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
6,721ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,246ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
527ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
879ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
853ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
107ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
785ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
508ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
12,860ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
157ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
5,262ms