Google शीट्स: इंटरनेट से डेटा स्क्रैप करना
Google शीट्स का इस्तेमाल करके अपने खुद के डेटा सेट बनाएँ।
Google शीट्स का इस्तेमाल करके अपने खुद के डेटा सेट बनाना सीखें।
इंटरनेट पर भारी मात्रा में डेटा उपलब्ध है, जिसका इस्तेमाल आप स्टोरी का अनुसंधान और कल्पना करने के लिए कर सकते हैं। डेटा खोजना, और इसे उस फ़ॉरमेट में प्राप्त करना, जिसके साथ आप काम कर सकते हैं, पहला चरण है।
- नई स्प्रेडशीट शुरू करना।
- विश्वसनीय डेटा ढूँढ़ना।
- Google शीट्स में डेटा आयात करना।
- समस्या-निवारण और त्रुटि संदेश।
- अपना डेटा प्रदर्शित करना।
अधिक डेटा पत्रकारिता पाठों के लिए, यहाँ जाएँ:
https://newsinitiative.withgoogle.com/training/course/data-journalism
नई स्प्रेडशीट शुरू करना।
Starting a new spreadsheet.
सबसे पहले, आपको खाली स्प्रेडशीट बनानी होगी। sheets.google.com पर जाएँ। नई स्प्रेडशीट प्रारंभ करें के अंतर्गत, + आइकन पर क्लिक करें।
अपनी स्प्रैडशीट को नाम देने के लिए, ऊपर बाएँ कोने में टेक्स्ट पर क्लिक करें। आइए इसे "हाईएस्ट ग्रॉसिंग मूवीज़" नाम दें।
विश्वसनीय डेटा ढूँढ़ना।
सरकारी साइट, वैज्ञानिक प्रकाशनों, Wikipedia, Google सार्वजनिक डेटा एक्सप्लोरर तथा और अधिक से डेटा सोर्स करके, आप लगभग किसी भी विषय पर डेटा स्टोरी कह सकते हैं। इस पाठ में, हम मूवीज़ के डेटा के साथ अभ्यास करेंगे।
google.com पर जाएँ और सबसे ज़्यादा कमाई करने वाली फ़िल्में खोजें। पहले लिंक में से एक, कई तालिकाओं के साथ Wikipedia प्रविष्टि होना चाहिए। एक सूची, जिसे "सभी समय की शीर्ष 50 सबसे अधिक कमाई वाली फ़िल्में" कहा जाता है, कई संदर्भों का हवाला देती है, इसलिए हम इसका इस्तेमाल करेंगे। हमेशा यह सुनिश्चित करने के लिए जाँच करें कि आप डेटा विश्वसनीय स्रोतों से स्क्रैप कर रहे हैं।
इस तालिका का Google शीट्स में आयात करने के लिए, URL हाइलाइट करके, उस पर दायाँ क्लिक करके, और प्रतिलिपि करें चुनकर, Wikipedia पृष्ठ के पते की प्रतिलिपि करें।
Google शीट्स में डेटा आयात करना।
हम अपनी स्प्रैडशीट में Wikipedia से तालिका आयात करने के लिए importHTML का इस्तेमाल करेंगे। वेब पृष्ठों से तालिकाएँ या सूचियाँ आयात करने में मदद के लिए, यह शक्तिशाली सूत्र Google शीट्स में अंतर्निर्मित है। इस बारे में अधिक जानने और उदाहरणों को देखने के लिए Google शीट्स प्रलेखन पृष्ठ पढ़ें कि importHTML कैसे काम करता है।
importHTML टूल को काम करने के लिए तीन पैरामीटर की ज़रूरत होती है: 1) URL2) हम जो डेटा एकत्रित कर रहे हैं, उसका प्रकार, तालिका या सूची3) HTML कोड में तालिका या सूची की स्थिति का प्रतिनिधित्व करने वाली संख्या। इस उदाहरण में, तालिका की पहली आवृत्ति को एक के रूप में नंबर किया जाएगा, क्योंकि जो तालिका हम चाहते हैं, वह HTML में दिखाई देने वाली पहली तालिका है। यह जानने के लिए आप परीक्षण और त्रुटि का इस्तेमाल कर सकते हैं या वेबपृष्ठ पर दायाँ क्लिक कर सकते हैं कि तालिका (1, 2, 3, आदि) की स्थिति क्या है, कोड में तालिका का पता लगाने के लिए निरीक्षण करें > खोजें चुनें।
स्वयं द्वारा बनाई गई खाली शीट पर जाएँ और सेल A1 पर जाएँ। प्रकार:=importHTML("https://en.wikipedia.org/wiki/List_of_highest-grossing_films", "table", 1)
ध्यान दें कि URL और तत्व प्रकार (हमारे मामले में, तालिका) उद्धरणों के बीच रखे जाते हैं - यह पैरामीटर को हरा बना देगा। अंतिम पैरामीटर नंबर है, जो उद्धरणों के भीतर नहीं है और यह नीले रंग का होगा।
समस्या-निवारण और त्रुटि संदेश।
अगर आपको ERROR! संदेश मिलता है, तो यह सुनिश्चित करने के लिए जाँच करें कि उद्धरण दोहरे उद्धरण हैं, जैसा कि उदाहरण में दिखाया गया है।
अगर आपको VALUE! त्रुटि मिलती है, तो यह सुनिश्चित करने के लिए जाँच करें कि आपने सेल में अतिरिक्त कोष्ठक या उद्धरण चिह्न नहीं लगाए।
अपना डेटा प्रदर्शित करना।
जब आपका importHTML फ़ॉर्मूला सही हो जाए, तो enter दबाएँ और Google शीट्स को कुछ सेकंड दें। सभी पंक्तियों और कॉलम के साथ तालिका को लोड होना चाहिए।
ध्यान दें कि कुछ ऐसे तत्व हैं, जिन्हें हमें हटाने की ज़रूरत होगी, ताकि हम इस डेटा की कल्पना कर सकें। हम इसे अगले पाठ "Google शीट्स: डेटा की सफ़ाई” में सीखेंगे।
बधाई!
आपने "Google शीट्स: इंटरनेट से डेटा स्क्रैप करना" पूरा कर लिया है।
अपने डिजिटल पत्रकारिता कौशलों को बढ़ाना जारी रखने और Google समाचार पहल प्रमाणीकरण की दिशा में काम करने के लिए, हमारे प्रशिक्षण केंद्र की वेबसाइट पर जाएँ और अन्य पाठ लें:
अधिक डेटा पत्रकारिता पाठों के लिए, यहाँ जाएँ:
newsinitiative.withgoogle.com/training/course/data-journalism
-
Google समाचार संग्रह: अतीत तक पहुँचें।
लेसनऐतिहासिक डिजिटल प्रकाशन और स्कैन किए गए समाचार पत्रों की खोज करें। -
-