सेमल्ट: एक वेबसाइट को परिमार्जन करने के लिए पायथन का उपयोग कैसे करें?

डेटा जांच में महत्वपूर्ण भूमिका निभाता है, है ना? यह चीजों को देखने का एक नया तरीका पैदा कर सकता है और अन्य अंतर्दृष्टि विकसित कर सकता है। सबसे दुर्भाग्यपूर्ण बात यह है कि जिस डेटा की आप तलाश कर रहे हैं वह आमतौर पर आसानी से उपलब्ध नहीं है। आप इसे इंटरनेट पर पा सकते हैं, लेकिन यह एक प्रारूप में नहीं है जो डाउनलोड करने योग्य है। ऐसे मामले में, आप वेब स्क्रैपिंग तकनीक का उपयोग प्रोग्राम और उस डेटा को इकट्ठा करने के लिए कर सकते हैं जिसकी आपको आवश्यकता है।

कई स्क्रैपिंग दृष्टिकोण और प्रोग्रामिंग भाषाएं हैं जो इस प्रक्रिया के माध्यम से मदद कर सकती हैं। यह लेख आपको किसी साइट को स्क्रैप करने के लिए अजगर भाषा का उपयोग करने के बारे में मार्गदर्शन करेगा। आप वेब पृष्ठों के संचालन पर बहुत सारी जानकारी प्राप्त करेंगे। आपको यह भी समझना होगा कि डेवलपर्स किसी भी वेबसाइट पर डेटा कैसे बनाते हैं।

सबसे अच्छा प्रारंभिक बिंदु आपके कंप्यूटिंग मशीन पर एनाकोंडा पायथन वितरण को डाउनलोड और स्थापित करना है। आप इस प्रोग्रामिंग भाषा की मूल बातें पर कुछ ट्यूटोरियल भी ले सकते हैं। सबसे अच्छी जगह स्थापित करने के लिए कोडेक अकादमी हो सकती है, खासकर यदि आपके पास इस क्षेत्र में कोई विचार नहीं है।

यह गाइड कैदियों के लिए पोल्क कंट्री करंट लिस्टिंग साइट का उपयोग करेगा। हम आपको गाइड करेंगे कि कैदियों की सूची निकालने के लिए पायथन स्क्रिप्ट का उपयोग कैसे करें और प्रत्येक कैदी के लिए निवास और दौड़ के शहर जैसे कुछ डेटा प्राप्त करें। पूरी स्क्रिप्ट जो हम आपको लेकर जा रहे हैं, वह GitHub में संग्रहीत और खुली है। यह लोकप्रिय ऑनलाइन प्लेटफार्मों में से एक है जो कंप्यूटर कोड को साझा करने की अनुमति देता है। कोड में टिप्पणी की एक लंबी सूची है जो आपके लिए बहुत मददगार हो सकती है।

किसी भी साइट को स्क्रैप करते समय, वेब ब्राउज़र देखने का पहला टूल है। अधिकांश ब्राउज़र उपयोगकर्ताओं को HTML निरीक्षण उपकरण देंगे जो इंजन-बे हैच को उठाने और पृष्ठ संरचना को समझने में सहायता करते हैं। जिस तरह से आप प्रत्येक टूल को एक्सेस करते हैं वह एक ब्राउज़र से दूसरे ब्राउज़र में भिन्न होता है। हालांकि, मुख्य आधार 'दृश्य पृष्ठ स्रोत है, और आप इसे सीधे पृष्ठ पर राइट-क्लिक करके प्राप्त कर सकते हैं।

जैसा कि आप पृष्ठ के HTML स्रोत को देखते हैं, तालिका पंक्तियों में कैदी के विवरणों को बड़े करीने से सूचीबद्ध करना उचित है। अगला कदम एक स्क्रिप्ट लिखना है जिसका उपयोग हम इस जानकारी को निकालने के लिए करने जा रहे हैं। दो पायथन पैकेज जिन्हें हम भारी उठाने की प्रक्रिया में उपयोग करने जा रहे हैं, वे हैं सुंदर सूप और अनुरोध। कोड चलाना शुरू करने से पहले आप उन्हें स्थापित कर लें।

वेब स्क्रैपिंग स्क्रिप्ट तीन काम करेगी। इनमें लिस्टिंग पृष्ठों को लोड करना और विवरण पृष्ठों के लिंक का निष्कर्षण, प्रत्येक विवरण पृष्ठ को लोड करना और डेटा निकालना, और निवास और दौड़ के शहर की तरह यह कैसे फ़िल्टर किया गया है, इसके आधार पर निकाले गए डेटा को प्रिंट करना शामिल है। एक बार जब आप इसे समझ जाते हैं, तो अगला कदम सुंदर सूप और अनुरोधों का उपयोग करके कोडिंग प्रक्रिया शुरू करना है।

सबसे पहले, log.get URL का उपयोग करके कैदी सूची पृष्ठ को तार्किक रूप से लोड करें और फिर उसे शुद्ध करने के लिए सुंदर सूप का उपयोग करें। उसके बाद, हम प्रत्येक पंक्ति के माध्यम से लूपिंग द्वारा विवरण पृष्ठों के लिंक को निकालते हैं। कैदी के विवरण को पार्स करने के बाद, अगला कदम सेक्स, उम्र, दौड़, बुकिंग का समय और शब्दकोश के नाम मूल्यों को निकालना है। प्रत्येक कैदी को अपना शब्दकोश मिलेगा, और सभी शब्दकोशों को कैदी की सूची में जोड़ा जाएगा। अंत में, दौड़ और शहर के मूल्यों पर लूप करें, इससे पहले कि आप अपनी सूची को प्रिंट करें।

mass gmail