List-Crawlers ใน AWS คืออะไร

List Crawlers Ni Aws Khux Xari



ข้อมูลมีอิทธิพลอย่างมากต่อการเติบโตของบริษัท เนื่องจากบริษัทหลายแห่งพึ่งพาข้อมูลดังกล่าวอย่างมากในการรับข้อมูลเชิงลึกผ่านสิ่งนั้น ข้อมูลเมตาคือข้อมูลเกี่ยวกับข้อมูลที่อธิบายข้อมูลเพื่อให้สามารถใช้ข้อมูลเพื่อให้ได้ข้อมูลสูงสุด ข้อมูลเมตาประกอบด้วยข้อมูล เช่น ตำแหน่งของข้อมูล โครงสร้างสคีมา ชนิดข้อมูล หรือสิ่งต่างๆ เช่น เจ้าของข้อมูล

คู่มือนี้จะอธิบายรายชื่อโปรแกรมรวบรวมข้อมูลใน AWS

List-Crawlers ใน AWS คืออะไร

โปรแกรมรวบรวมข้อมูลเป็นส่วนประกอบของ AWS Glue ซึ่งใช้ในการรวบรวมข้อมูลเหนือตำแหน่งข้อมูลและอนุมานข้อมูลนั้นกลับไปยังแคตตาล็อก ข้อมูลที่โปรแกรมรวบรวมข้อมูลรวบรวมอาจเป็นประเภทข้อมูล โครงสร้างสคีมา หรืออีกนัยหนึ่ง โปรแกรมรวบรวมข้อมูลเมตา ซอฟต์แวร์รวบรวมข้อมูลยังสามารถใช้กับแคตตาล็อกข้อมูลซึ่งใช้เมื่อข้อมูลถูกย้ายภายในระบบนิเวศของกาวในขณะที่ใช้งาน ETL เป็นต้น









Amazon Glue Service คืออะไร?

AWS Glue เป็นบริการ Amazon Extract Transform and Load ซึ่งช่วยให้ผู้ใช้สามารถจัดระเบียบ ค้นหา ย้าย และแปลงข้อมูลทั้งหมด AWS Glue เป็นแบบไร้เซิร์ฟเวอร์ เนื่องจากผู้ใช้ไม่จำเป็นต้องจัดเตรียมและกำหนดค่าเซิร์ฟเวอร์หรือจัดการวงจรชีวิต แค็ตตาล็อกและโปรแกรมรวบรวมข้อมูลเป็นส่วนประกอบของ AWS Glue ซึ่งทำหน้าที่เป็นที่เก็บข้อมูลเมตาถาวร:







จะสร้างโปรแกรมรวบรวมข้อมูลบน AWS ได้อย่างไร

หากต้องการสร้างโปรแกรมรวบรวมข้อมูลบน AWS โปรดไปที่บริการ AWS Glue จาก AWS Management Console:



มุ่งหน้าสู่ “ โปรแกรมรวบรวมข้อมูล ” หน้าโดยคลิกที่ชื่อจากแผงด้านซ้าย:

คลิกที่ ' สร้างโปรแกรมรวบรวมข้อมูล ' ปุ่ม:

พิมพ์ชื่อโปรแกรมรวบรวมข้อมูลและคลิกที่ ' ต่อไป ' ปุ่ม:

เลือกตัวเลือกการแมปสำหรับตารางกาวและคลิกที่ ' เพิ่มแหล่งที่มา ” เพื่อรับข้อมูลจาก:

เลือกบริการ S3 และคลิกที่ “ เรียกดู S3 ปุ่ม ” เพื่อรับตำแหน่งของแหล่งที่มา:

เพียงเลือกโฟลเดอร์ S3 และคลิกที่ “ เลือก ' ปุ่ม:

เมื่อเพิ่มตำแหน่งลงในแหล่งที่มาแล้ว ให้คลิกที่ ' เพิ่มแหล่งข้อมูล S3 ' ปุ่ม:

คลิกที่ ' ต่อไป ' ปุ่ม:

คลิกที่ ' สร้างบทบาท IAM ใหม่ ” จากปุ่ม “ กำหนดการตั้งค่าความปลอดภัย ' ส่วน:

ป้อนชื่อบทบาทและคลิกที่ “ สร้าง ' ปุ่ม:

หลังจากนั้น เพียงคลิกที่ “ ต่อไป ' ปุ่ม:

เลือกฐานข้อมูลเป้าหมายและพิมพ์ชื่อที่จะใช้สำหรับตาราง:

กำหนดเวลาโปรแกรมรวบรวมข้อมูลสำหรับ “ ตามความต้องการ ” และคลิกที่ “ ต่อไป ' ปุ่ม:

ตรวจสอบการกำหนดค่าและคลิกที่ “ สร้างโปรแกรมรวบรวมข้อมูล ' ปุ่ม:

สร้างโปรแกรมรวบรวมข้อมูลสำเร็จแล้วและสามารถใช้ดึงข้อมูลจากแหล่งที่มาได้โดยคลิกที่ ' วิ่ง ' ปุ่ม:

นั่นคือทั้งหมดที่เกี่ยวกับโปรแกรมรวบรวมข้อมูลรายการใน AWS

บทสรุป

ListCrawler เป็นส่วนประกอบของบริการ AWS Glue ซึ่งสามารถใช้เพื่อรวบรวมข้อมูลจากแหล่งที่มาและกลับไปที่แคตตาล็อก สามารถใช้แค็ตตาล็อกและซอฟต์แวร์รวบรวมข้อมูลเพื่อรวบรวมข้อมูลเพื่อรับข้อมูลเกี่ยวกับข้อมูลซึ่งเรียกว่าข้อมูลเมตา ผู้ใช้ยังสามารถสร้างโปรแกรมรวบรวมข้อมูลจาก AWS Glue เพื่อรับข้อมูลจากบริการ S3 หรือแหล่งข้อมูลอื่นๆ และสร้างตารางในฐานข้อมูล คู่มือนี้ได้อธิบาย ListCrawlers ใน AWS และวิธีการสร้าง