एचटीएमएल एक्सट्रैक्टर एपीआई एक उन्नत उपकरण है जिसे वेब पृष्ठों से डेटा की निकासी और विश्लेषण को सुविधाजनक बनाने के लिए डिज़ाइन किया गया है, जो उन पृष्ठों की पूरी एचटीएमएल सामग्री को पुनः प्राप्त करता है। यह एपीआई उन उपयोगकर्ताओं के लिए उपयोगी है, जिन्हें विभिन्न उद्देश्यों के लिए वेब साइटों में निहित जानकारी तक पहुँचने की आवश्यकता होती है, जैसे कि बाजार अनुसंधान, प्रतियोगिता निगरानी, या वेब एप्लिकेशन विकास।
मुख्य विशेषताएँ:
पूर्ण एचटीएमएल कोड पुनः प्राप्त करना: एचटीएमएल एक्सट्रैक्टर एपीआई का मुख्य कार्य एक विशिष्ट वेब पृष्ठ का संपूर्ण एचटीएमएल कोड पकड़ना है। इसमें पृष्ठ की पूरी संरचनात्मक सामग्री शामिल होती है, जैसे कि टैग, विशेषताएँ और अंतर्निहित तत्व। पूर्ण एचटीएमएल प्राप्त करके, उपयोगकर्ता पृष्ठ पर सभी दृश्य और छिपी हुई जानकारी तक पहुँच सकते हैं, जो सामग्री का व्यापक विश्लेषण करने की अनुमति देती है।
विभिन्न प्रकार के वेब पृष्ठों के लिए समर्थन: यह एपीआई बहुपरकारी है और स्थिर पृष्ठों से लेकर उन गतिशील साइटों तक व्यापक वेब साइटों की एक श्रृंखला का समर्थन करता है जो जावास्क्रिप्ट का उपयोग करके सामग्री उत्पन्न करते हैं। विभिन्न प्रकार की सामग्री को संभालने की क्षमता एपीआई को विभिन्न अनुप्रयोगों के लिए उपयुक्त बनाती है, जैसे कि समाचार डेटा संग्रह, सोशल नेटवर्क निगरानी, और जटिल वेब पृष्ठ संरचना विश्लेषण।
विशिष्ट डेटा निकासी: हालांकि एपीआई पूर्ण एचटीएमएल प्रदान करता है, इसे विशिष्ट पृष्ठ डेटा निकालने के लिए भी उपयोग किया जा सकता है। उपयोगकर्ता एचटीएमएल पार्सिंग तकनीकों के साथ एपीआई को संयोजित कर सकते हैं, जैसे नियमित अभिव्यक्तियों या एचटीएमएल प्रोसेसिंग लाइब्रेरी का उपयोग, विशेष जानकारी जैसे उत्पाद की कीमतें, संपर्क विवरण या अन्य प्रासंगिक डेटा निकालने के लिए।
संक्षेप में, एचटीएमएल एक्सट्रैक्टर एपीआई वेब पृष्ठों से एचटीएमएल सामग्री निकालने के लिए एक शक्तिशाली और लचीला उपकरण है। यह विश्लेषण, अनुसंधान या विकास के लिए वेब पृष्ठ सामग्री तक पूर्ण पहुंच की आवश्यकता वाले लोगों के लिए एक प्रभावी समाधान प्रदान करता है। इसका विभिन्न प्रकार के पृष्ठों को संभालने की क्षमता और आसान एकीकरण इसे वेब डेटा प्रबंधन और विश्लेषण में अनेक उपयोग मामलों के लिए एक मूल्यवान विकल्प बनाती है।
एपीआई एक वेब पृष्ठ का यूआरएल प्राप्त करता है और उस पृष्ठ की पूरी एचटीएमएल सामग्री को विश्लेषण और डेटा निकासी के लिए प्रदान करता है।
प्रतिस्पर्धी अनुसंधान: प्रतिस्पर्धियों की वेबसाइटों से सामग्री एकत्र करें ताकि कीमतों, उत्पादों, प्रचार और विपणन रणनीतियों का विश्लेषण किया जा सके।
समाचार निगरानी: समाचार साइटों से सामग्री निकालें ताकि वास्तविक समय में नवीनतम घटनाओं और अपडेट के साथ बने रहें।
शैक्षिक अनुसंधान के लिए डेटा संग्रह: शैक्षिक अनुसंधान या केस स्टडीज के लिए कई वेबसाइटों से सामग्री प्राप्त करें और उसका विश्लेषण करें।
वेब एप्लिकेशन विकास: विकास और परीक्षण के दौरान स्वयं वेब एप्लिकेशनों से एचटीएमएल निकालने और पार्स करने के लिए एपीआई का उपयोग करें।
एसईओ विश्लेषण: महत्वपूर्ण एसईओ तत्वों जैसे मेटा टैग, शीर्षक, और लिंक संरचना का विश्लेषण करने के लिए वेब पृष्ठों से एचटीएमएल निकालें।
प्रति माह अनुमत एपीआई कॉल की संख्या के अलावा, कोई अन्य सीमाएँ नहीं हैं।
{"method":"GET","urlSupplier":"https:\/\/www.reuters.com\/article\/us-usa-economy-idUSKBN2A40BO","redirectedUrlSupplier":"https:\/\/www.reuters.com\/article\/us-usa-economy-idUSKBN2A40BO\/","_note":"Response truncated for documentation purposes"}
curl --location --request GET 'https://zylalabs.com/api/5079/html+extractor+api/6470/source+url?urlSupplier=https://www.reuters.com/article/us-usa-economy-idUSKBN2A40BO&forceCache=True' --header 'Authorization: Bearer YOUR_API_KEY'
| हेडर | विवरण |
|---|---|
Authorization
|
[आवश्यक] होना चाहिए Bearer access_key. जब आप सब्सक्राइब हों तो ऊपर "Your API Access Key" देखें। |
कोई लंबी अवधि की प्रतिबद्धता नहीं। कभी भी अपग्रेड, डाउनग्रेड या कैंसल करें। फ्री ट्रायल में 50 रिक्वेस्ट तक शामिल हैं।
इस एपीआई का प्रयोग करने के लिए, आप एक अनुरोध भेजते हैं जिसमें वेब पृष्ठ का यूआरएल होता है और पूर्ण HTML सामग्री प्राप्त करते हैं जिसे पार्स और निकालने के लिए प्रयोग किया जाता है
HTML एक्सट्रैक्टर एपीआई एक वेब पृष्ठ से पूरा HTML कोड लाता है जिससे सामग्री से डेटा पार्स और निकालना आसान हो जाता है
विभिन्न योजनाएँ हैं जो प्रत्येक के लिए उपयुक्त हैं जिसमें छोटे अनुरोधों के लिए एक मुफ़्त परीक्षण शामिल है लेकिन इसकी दर का सीमित करना सेवा के दुरुपयोग को रोकने के लिए है
Zyla लगभग सभी प्रोग्रामिंग भाषाओं के लिए एक विस्तृत रेंज के एकीकरण विधियों की पेशकश करता है आप अपनी आवश्यकता के अनुसार इन कोड का उपयोग करके अपने प्रोजेक्ट के साथ एकीकृत कर सकते हैं
एपीआई एक डोमेन की उम्र और इतिहास के बारे में विस्तृत जानकारी लौटाता है जिसमें इसके निर्माण से लेकर वर्षों, महीनों और दिनों के अलावा समाप्ति और अद्यतन तिथियाँ भी शामिल हैं
एपीआई निर्दिष्ट वेब पृष्ठ का संपूर्ण एचटीएमएल सामग्री लौटाता है जिसमें सभी टैग, विशेषताएँ और अंतर्निहित तत्व शामिल होते हैं यह उपयोगकर्ताओं को विश्लेषण के लिए दृश्य और अदृश्य जानकारी दोनों तक पहुँचने की अनुमति देता है
प्रतिक्रिया में "पद्धति" (उपयोग की गई HTTP पद्धति), "urlSupplier" (मांग की गई मूल URL), "redirectedUrlSupplier" (पुनर्निर्देशन के बाद का अंतिम URL), और "pageSource" (पृष्ठ की संपूर्ण HTML सामग्री) जैसे क्षेत्र शामिल हैं
प्रतिक्रिया JSON प्रारूप में संरचित है जिसमें कुंजी-मूल्य जोड़े हैं जो HTTP विधि URLs और पूर्ण HTML स्रोत प्रदान करते हैं यह संगठन पार्सिंग और अनुप्रयोगों में समाकलन को आसान बनाता है
एपीआई वेब पृष्ठों की पूरी एचटीएमएल संरचना तक पहुंच प्रदान करता है जिससे उपयोगकर्ता पाठ सामग्री चित्र लिंक और मेटाडेटा जैसे विभिन्न प्रकार की जानकारी निकाल सकते हैं ताकि आगे के विश्लेषण के लिए
उपयोगकर्ता विभिन्न वेब पृष्ठों से HTML सामग्री प्राप्त करने के लिए अलग-अलग यूआरएल निर्दिष्ट करके अनुरोधों को कस्टमाइज़ कर सकते हैं एपीआई किसी भी मान्य यूआरएल को संसाधित करता है जो उपयोगकर्ता की आवश्यकताओं के आधार पर लचीले डेटा निष्कर्षण की अनुमति देता है
सामान्य उपयोग के मामलों में प्रतियोगी अनुसंधान समाचार मॉनिटरिंग शैक्षणिक डेटा संग्रह वेब अनुप्रयोग विकास और SEO विश्लेषण शामिल हैं जहां उपयोगकर्ताओं को वेब पृष्ठों की संरचना और सामग्री का विश्लेषण करने की आवश्यकता होती है
API निर्दिष्ट URLs से सीधे लाइव HTML सामग्री प्राप्त करता है जिससे यह सुनिश्चित होता है कि डेटा वेब पेज के सबसे वर्तमान संस्करण को दर्शाता है इस वास्तविक समय की पहुंच सटीकता बनाए रखने में मदद करती है
उपयोगकर्ता एक सुसंगत JSON प्रतिक्रिया संरचना की उम्मीद कर सकते हैं जिसमें विधि, URLs और HTML सामग्री के लिए फ़ील्ड होंगे HTML पृष्ठ के डिज़ाइन के आधार पर भिन्न होगा लेकिन प्रतिक्रिया प्रारूप अनुरोधों में समान रहता है
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
210ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
237ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
152ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
152ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
122ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
812ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
364ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
283ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
261ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
264ms