คู่มือนี้จะอธิบายรายชื่อโปรแกรมรวบรวมข้อมูลใน AWS
List-Crawlers ใน AWS คืออะไร
โปรแกรมรวบรวมข้อมูลเป็นส่วนประกอบของ AWS Glue ซึ่งใช้ในการรวบรวมข้อมูลเหนือตำแหน่งข้อมูลและอนุมานข้อมูลนั้นกลับไปยังแคตตาล็อก ข้อมูลที่โปรแกรมรวบรวมข้อมูลรวบรวมอาจเป็นประเภทข้อมูล โครงสร้างสคีมา หรืออีกนัยหนึ่ง โปรแกรมรวบรวมข้อมูลเมตา ซอฟต์แวร์รวบรวมข้อมูลยังสามารถใช้กับแคตตาล็อกข้อมูลซึ่งใช้เมื่อข้อมูลถูกย้ายภายในระบบนิเวศของกาวในขณะที่ใช้งาน ETL เป็นต้น
Amazon Glue Service คืออะไร?
AWS Glue เป็นบริการ Amazon Extract Transform and Load ซึ่งช่วยให้ผู้ใช้สามารถจัดระเบียบ ค้นหา ย้าย และแปลงข้อมูลทั้งหมด AWS Glue เป็นแบบไร้เซิร์ฟเวอร์ เนื่องจากผู้ใช้ไม่จำเป็นต้องจัดเตรียมและกำหนดค่าเซิร์ฟเวอร์หรือจัดการวงจรชีวิต แค็ตตาล็อกและโปรแกรมรวบรวมข้อมูลเป็นส่วนประกอบของ AWS Glue ซึ่งทำหน้าที่เป็นที่เก็บข้อมูลเมตาถาวร:
จะสร้างโปรแกรมรวบรวมข้อมูลบน AWS ได้อย่างไร
หากต้องการสร้างโปรแกรมรวบรวมข้อมูลบน AWS โปรดไปที่บริการ AWS Glue จาก AWS Management Console:
มุ่งหน้าสู่ “ โปรแกรมรวบรวมข้อมูล ” หน้าโดยคลิกที่ชื่อจากแผงด้านซ้าย:
คลิกที่ ' สร้างโปรแกรมรวบรวมข้อมูล ' ปุ่ม:
พิมพ์ชื่อโปรแกรมรวบรวมข้อมูลและคลิกที่ ' ต่อไป ' ปุ่ม:
เลือกตัวเลือกการแมปสำหรับตารางกาวและคลิกที่ ' เพิ่มแหล่งที่มา ” เพื่อรับข้อมูลจาก:
เลือกบริการ S3 และคลิกที่ “ เรียกดู S3 ปุ่ม ” เพื่อรับตำแหน่งของแหล่งที่มา:
เพียงเลือกโฟลเดอร์ S3 และคลิกที่ “ เลือก ' ปุ่ม:
เมื่อเพิ่มตำแหน่งลงในแหล่งที่มาแล้ว ให้คลิกที่ ' เพิ่มแหล่งข้อมูล S3 ' ปุ่ม:
คลิกที่ ' ต่อไป ' ปุ่ม:
คลิกที่ ' สร้างบทบาท IAM ใหม่ ” จากปุ่ม “ กำหนดการตั้งค่าความปลอดภัย ' ส่วน:
ป้อนชื่อบทบาทและคลิกที่ “ สร้าง ' ปุ่ม:
หลังจากนั้น เพียงคลิกที่ “ ต่อไป ' ปุ่ม:
เลือกฐานข้อมูลเป้าหมายและพิมพ์ชื่อที่จะใช้สำหรับตาราง:
กำหนดเวลาโปรแกรมรวบรวมข้อมูลสำหรับ “ ตามความต้องการ ” และคลิกที่ “ ต่อไป ' ปุ่ม:
ตรวจสอบการกำหนดค่าและคลิกที่ “ สร้างโปรแกรมรวบรวมข้อมูล ' ปุ่ม:
สร้างโปรแกรมรวบรวมข้อมูลสำเร็จแล้วและสามารถใช้ดึงข้อมูลจากแหล่งที่มาได้โดยคลิกที่ ' วิ่ง ' ปุ่ม:
นั่นคือทั้งหมดที่เกี่ยวกับโปรแกรมรวบรวมข้อมูลรายการใน AWS
บทสรุป
ListCrawler เป็นส่วนประกอบของบริการ AWS Glue ซึ่งสามารถใช้เพื่อรวบรวมข้อมูลจากแหล่งที่มาและกลับไปที่แคตตาล็อก สามารถใช้แค็ตตาล็อกและซอฟต์แวร์รวบรวมข้อมูลเพื่อรวบรวมข้อมูลเพื่อรับข้อมูลเกี่ยวกับข้อมูลซึ่งเรียกว่าข้อมูลเมตา ผู้ใช้ยังสามารถสร้างโปรแกรมรวบรวมข้อมูลจาก AWS Glue เพื่อรับข้อมูลจากบริการ S3 หรือแหล่งข้อมูลอื่นๆ และสร้างตารางในฐานข้อมูล คู่มือนี้ได้อธิบาย ListCrawlers ใน AWS และวิธีการสร้าง