Jina NOW เป็นโซลูชั่นที่สมบูรณ์บนพื้นฐาน Python สำหรับการจัดทำดัชนีหลายรูปแบบและการเรียกค้นข้อมูล สนับสนุนคู่โหมดที่แตกต่างกันหลายคู่ แต่บทความนี้สรุปขั้นตอนในการใช้โซลูชันการค้นหาข้อความเป็นรูปภาพและรูปภาพต่อรูปภาพที่ใช้งานได้จริง โดยไม่ต้องใช้โค้ดเลย

เราจะแนะนำคุณตลอดขั้นตอนในการสร้างเครื่องมือค้นหาข้อความเป็นรูปภาพของคุณเองโดยไม่มีอะไรมากไปกว่าไดเรกทอรีของรูปภาพและการติดตั้ง Jina NOW หากคุณต้องการข้ามขั้นตอนเหล่านี้ทั้งหมดทันทีและเห็นผลลัพธ์ ให้เลื่อนลงไปที่หัวข้อ เราข้ามไปข้างหน้าไม่ได้หรือ

ความต้องการ

  1. คอมพิวเตอร์ที่รองรับ UNIX MacOS นั้นใช้ได้ เช่นเดียวกับ Windows Subsystem สำหรับ Linux แต่ไม่ใช่ Windows ล้วนๆ ดู "คำแนะนำในการติดตั้งบนเว็บไซต์ Jina AI" สำหรับข้อมูลเพิ่มเติม
  2. การเชื่อมต่ออินเทอร์เน็ต
  3. การติดตั้ง Python 3.7 หรือสูงกว่า (คำแนะนำในการติดตั้งจาก python.org.) การติดตั้ง Python ของคุณต้องมี pip โดยปกติจะติดตั้งเมื่อคุณติดตั้ง Python แต่หากไม่เป็นเช่นนั้น ให้ “ทำตามคำแนะนำบนเว็บไซต์ Python”

การรวบรวมข้อมูลเครื่องหมายการค้า

การจดทะเบียนเครื่องหมายการค้าในสหรัฐอเมริกาดำเนินการผ่าน สำนักงานสิทธิบัตรสหรัฐอเมริกา รูปภาพและคำอธิบายเครื่องหมายการค้าเป็นส่วนหนึ่งของบันทึกสาธารณะและสามารถดูได้ผ่านทาง "อินเทอร์เฟซการดาวน์โหลดข้อมูลจำนวนมาก" และ "เครื่องมือค้นหาสาธารณะ"

บันทึกเหล่านี้อยู่ในรูปแบบ XML และ JPG และต้องใช้เวลาสักพักจึงจะแยกวิเคราะห์ได้ นี่ไม่ใช่บทช่วยสอนเกี่ยวกับการประมวลผลข้อมูลบันทึกสาธารณะของ USPTO ดังนั้นเราจึงทำงานให้คุณ เราได้แยกรูปภาพเครื่องหมายการค้าการออกแบบของสหรัฐอเมริกาจำนวน 16,612 รูป (ซึ่งตรงข้ามกับเครื่องหมายการค้าที่เป็นเพียงสโลแกนหรือชื่อ) ซึ่งมีการดำเนินการจดทะเบียนในเดือนสิงหาคม 2022 คุณสามารถดาวน์โหลดได้จาก Google Drive คลายซิปไฟล์ที่ดาวน์โหลดไปยังตำแหน่งที่สะดวกในระบบไฟล์ในเครื่องของคุณ ไฟล์จะอยู่ในไดเร็กทอรีชื่อ tm_designs

คุณสามารถตรวจสอบภาพได้ด้วยตัวเอง ส่วนใหญ่จะเป็นขาวดำหรือโทนสีเทา แต่มีบางส่วนที่เป็นสี ประกอบด้วยโลโก้ที่มีชื่อเสียงจำนวนหนึ่ง เช่น:

และ:

และโลโก้สีสดใสเป็นพิเศษนี้ลงทะเบียนให้กับบุคคลธรรมดา:

แต่ละภาพอยู่ในรูปแบบ JPG โดยมีพื้นหลังสีขาว ชื่อของไฟล์คือหมายเลขจดทะเบียนของเครื่องหมายการค้า ตัวอย่างเช่น ไฟล์ 73139391.jpg สอดคล้องกับ หมายเลขทะเบียนเครื่องหมายการค้าสหรัฐอเมริกา 73139391 และมีลักษณะดังนี้:

ติดตั้ง Jina ทันที

ที่บรรทัดคำสั่งให้รัน:

pip install jina-now

ผู้ใช้ Python ที่มีความซับซ้อนอาจต้องการติดตั้งนี้ในสภาพแวดล้อมเสมือน เพื่อลดความเสี่ยงของการขึ้นต่อกันที่เข้ากันไม่ได้ แต่ไม่ควรจำเป็นอย่างเคร่งครัด

รับบัญชี Jina AI

การลงทะเบียนบัญชี Jina เป็นทางเลือก อย่างไรก็ตาม การลงทะเบียนนั้นฟรีและทำให้คุณสามารถเข้าถึงโฮสติ้งคลาวด์ของเราได้ฟรี เพื่อการปรับใช้ การปรับขนาด และการตรวจสอบแอปพลิเคชันการค้นหาของคุณที่ง่ายดาย

ขั้นตอนที่อธิบายไว้ในบทความนี้อาจใช้เวลาในการทำงานบนคลาวด์ของ Jina น้อยกว่าบนคอมพิวเตอร์ของคุณเอง

หากต้องการรับบัญชี Jina ให้ไปที่ Jina Hub และคลิกปุ่มเข้าสู่ระบบบนหน้าเว็บนั้น

วิ่ง Jina ตอนนี้

เมื่อติดตั้ง Jina NOW แล้ว ให้เปิดเทอร์มินัลบรรทัดคำสั่งแล้วรัน:

jina now start

หากติดตั้ง Jina NOW อย่างถูกต้อง คุณจะเห็นสิ่งนี้ในเทอร์มินัลบรรทัดคำสั่งของคุณ:

ค้นหาข้อความเป็นรูปภาพ

ขั้นแรก เราจะสร้างเครื่องมือค้นหาที่รับการป้อนข้อความ เช่น "นกอินทรี" หรือ "รองเท้า" และค้นหารูปภาพเครื่องหมายการค้าที่ตรงกัน

  • เลือกตัวเลือกแรกใน Jina ตอนนี้: text to image search

คุณควรเห็นหน้าจอดังนี้:

  • เลือกตัวเลือกที่สาม: excellent

เราสามารถเลือกอันอื่นได้ แต่จะทำให้เราได้ผลลัพธ์ที่แม่นยำน้อยลง จากนั้นคุณควรเห็นหน้าจอดังนี้:

  • เลือกตัวเลือกสุดท้าย: custom

จากนั้นคุณควรเห็นสิ่งนี้:

  • เลือกตัวเลือกที่สาม Local path จากนั้นป้อนเส้นทางไปยังไดเร็กทอรี tm_designs จากไฟล์ zip ของภาพเครื่องหมายการค้าที่คุณดาวน์โหลดจาก Google Drive

ตอนนี้คุณจะได้หน้าจอดังนี้:

เราขอแนะนำให้คุณเลือก Jina Cloud ข้อมูลเครื่องหมายการค้าจะถูกอัปโหลดไปยังเซิร์ฟเวอร์ของ Jina ซึ่งจะจัดทำดัชนีและอนุญาตให้คุณค้นหาผ่านอินเทอร์เฟซ HTTPS REST และจากหน้าเว็บที่คุณสามารถใช้เป็น "สนามเด็กเล่น" ในการค้นหา สิ่งนี้กำหนดให้คุณต้องมีบัญชี Jina ตามที่อธิบายไว้ในส่วนก่อนหน้า

อีกทางเลือกหนึ่ง — Local— จะสร้างดัชนีบนคอมพิวเตอร์ของคุณและสร้างเครื่องมือค้นหาลงในคอนเทนเนอร์ Docker จากนั้นติดตั้งและเรียกใช้ใน Docker หากคุณเลือกตัวเลือกนี้ คุณต้องมี Docker ติดตั้งและใช้งานอยู่

การจัดทำดัชนีและการทำงานภายในเครื่องจะใช้เวลามากขึ้นและใช้ทรัพยากรในท้องถิ่นจำนวนมากอย่างแน่นอน

สมมติว่าคุณเลือก Jina Cloud คุณจะเข้าสู่หน้าจอดังนี้:

หากคุณเลือก yes การเข้าถึงเครื่องมือค้นหาจะถูกจำกัดเฉพาะคุณและผู้ใช้รายอื่นที่คุณระบุชื่อโดยเฉพาะ คุณควรเลือกตัวเลือกนี้หากคุณทำงานกับข้อมูลของคุณเอง แต่เนื่องจากนี่คือข้อมูลบันทึกสาธารณะที่ไม่มีค่าความปลอดภัย คุณจึงเลือก no ได้อย่างอิสระ

หากดำเนินการทุกขั้นตอนอย่างถูกต้อง คุณจะได้หน้าจอดังนี้:

Jina NOW จะรวบรวมข้อมูลของคุณ อัปโหลดไปยัง Jina Cloud และจัดทำดัชนี การดำเนินการนี้จะใช้เวลาสักครู่ การอัปโหลดอาจใช้เวลาหลายนาที และการจัดทำดัชนีอาจนานถึงสองสามชั่วโมง

เมื่อ Jina NOW อัพโหลดข้อมูลเสร็จแล้วและเริ่มสร้างดัชนี คุณจะเห็นหน้าจอดังนี้:

คุณควรจดสตริง IDc2f077f8a7 ในตัวอย่างด้านบนทันที — เพราะคุณจะต้องใช้มันเพื่อเข้าถึงดัชนีในภายหลัง

อาจใช้เวลาประมาณหนึ่งชั่วโมง (และอาจหลายชั่วโมง ขึ้นอยู่กับโหลด) เพื่อจัดทำดัชนีให้เสร็จสิ้น หากโปรแกรม Jina NOW ที่ทำงานบนคอมพิวเตอร์ของคุณหยุดทำงาน หรือการเชื่อมต่ออินเทอร์เน็ตขาดหายไป ไม่ต้องกังวล ข้อมูลของคุณยังคงจัดทำดัชนีอยู่

การเข้าถึงดัชนี

หลังจากจัดทำดัชนีเสร็จแล้ว คุณสามารถค้นหาข้อมูลเครื่องหมายการค้าได้โดยใช้ REST API ที่เชื่อมต่อกับ Jina Cloud REST API นี้ใช้ JSON สำหรับการแลกเปลี่ยนข้อมูล และคุณสามารถสร้างแอปพลิเคชันที่อยู่รอบๆ ได้

คุณยังสามารถเข้าถึงได้ผ่านทาง “สนามเด็กเล่น” เพื่อทดสอบว่ามันตอบสนองต่อคำค้นหาได้ดีแค่ไหน เมื่อใช้สตริง ID จากด้านบน URL สำหรับ Playground คือ:

https://nowrun.jina.ai/?host=grpcs://nowapi-<ID_STRING>.wolf.jina.ai&input_modality=text&output_modality=image&data=custom?utm_source=blog-trademark

เพียงแทนที่สตริง ID ของคุณด้วย <ID_STRING> ใน URL ด้านบน แล้วดำเนินการต่อ ดัชนีของคุณจะยังคงติดตั้งอยู่บน Jina Cloud เป็นเวลาหลายวันก่อนที่จะถูกลบโดยอัตโนมัติ

บริการ Jina Cloud ยังมีให้ใช้งานเชิงพาณิชย์อีกด้วย กรุณาส่งอีเมลไปที่ ติดต่อ@jina.ai เพื่อรับทราบข้อมูลเฉพาะเจาะจง

เราไม่สามารถข้ามไปข้างหน้าได้หรือไม่?

ใช่. แม้ว่าขั้นตอนในการสร้างดัชนีข้อความเป็นรูปภาพจะรวดเร็วและง่ายดาย แต่การสร้างดัชนีสำหรับรูปภาพจำนวนมากนี้ต้องใช้เวลาพอสมควร ดังนั้นเราจึง "สร้างดัชนีไว้ล่วงหน้าสำหรับข้อมูลเครื่องหมายการค้านี้ซึ่งคุณสามารถสืบค้นได้ในขณะนี้"

หากคุณไปที่ลิงค์นั้น คุณจะได้หน้าแบบนี้:

ป้อนข้อความลงในช่องป้อนข้อมูลแล้วกดปุ่ม ค้นหา ตัวอย่างเช่น การค้นหา "สุนัขและเครื่องเล่นแผ่นเสียง":

คุณจะเห็นว่าผลลัพธ์แรกคือเวอร์ชันของโลโก้ "เสียง His Master's Voice อันโด่งดังของ RCA" การค้นหานี้ไม่ได้ใช้ข้อมูลเมตาที่เป็นข้อความ AI ของ Jina ตระหนักดีว่าคำว่า "สุนัข" และ "เครื่องเล่นแผ่นเสียง" นั้นเข้ากันได้ดีกับวัตถุที่ปรากฎในภาพนี้

แอปพลิเคชัน Playground นี้แสดงการจับคู่ที่ดีที่สุดเก้ารายการกับข้อความค้นหาของคุณ เรียงจากดีที่สุดไปหาแย่ที่สุด บางครั้งแบบสอบถามจะส่งกลับผลลัพธ์ที่ไม่ถูกต้องเนื่องจากไม่มีสิ่งใดในดัชนีที่ตรงกัน บางครั้ง สองสามแมตช์แรกๆ อาจจะดี — เช่นสำหรับ “หมาและเครื่องเล่นแผ่นเสียง” — และแมตช์อื่นๆ แย่กว่ามาก

เครื่องหมายการค้ามีคำอธิบายข้อความที่เป็นทางการรวมอยู่ในเอกสารที่ยื่นต่อ ตัวอย่างเช่น ต่อไปนี้เป็นคำอธิบายข้อความของเครื่องหมายการค้าสหรัฐอเมริกาหมายเลข 97112227:

เครื่องหมายประกอบด้วยคนสวมหมวกเก๋ๆ กำลังพิมพ์บนแล็ปท็อปที่มีปลาหมึกคว่ำและมีหนวดล้อมรอบบุคคลนั้น หมวกและเสื้อคลุมของบุคคลนั้นเป็นสีดำโดยมีแรเงาสีขาวและสีเทา ใบหน้าของบุคคลนั้นเป็นสีน้ำเงินและสีขาวโดยมีแรเงาสีดำ ดวงตามีสีเหลือง เข็มนาฬิกาเป็นสีเบจ แล็ปท็อปมีสีดำ สีขาว และสีเทา ปลาหมึกสีแดงมีเส้นขอบสีดำ ปลาหมึกมีลักษณะเป็นสีน้ำเงิน สีขาว และสีส้ม ตาปลาหมึกมีสีเหลืองและสีดำ ฟันปลาหมึกมีสีขาวและปากเป็นสีดำ รอบๆ หนวดปลาหมึกบางส่วนจะมีเส้นโค้งสีดำ สีขาวภายในหนวดหมายถึงพื้นหลังและ/หรือพื้นที่โปร่งใส และไม่ได้เป็นส่วนหนึ่งของเครื่องหมาย

คุณสามารถดูลักษณะของเครื่องหมายได้ที่ เว็บไซต์สำนักงานสิทธิบัตรและเครื่องหมายการค้าของสหรัฐอเมริกา:

มาวางข้อความทั้งหมดของคำอธิบายเครื่องหมายการค้าลงใน Jina ทันที:

คุณจะเห็นได้ว่าพบเครื่องหมายการค้าที่ตรงกันโดยอาศัยการประมวลผลภาพอัจฉริยะและการแยกวิเคราะห์ข้อความภาษาธรรมชาติอย่างแท้จริง

การค้นหาภาพต่อภาพบนข้อมูลเครื่องหมายการค้า

ในฐานะที่เป็นอีกหนึ่งการประยุกต์ใช้เทคโนโลยีการค้นหาของ Jina NOW ในทางปฏิบัติ ลองจินตนาการว่าคุณมีการออกแบบที่คุณต้องการเป็นเครื่องหมายการค้า และต้องการค้นหาเครื่องหมายการค้าที่คล้ายกัน คุณต้องการจัดหารูปภาพเป็นอินพุตและค้นหารูปภาพอื่นที่มีเนื้อหาคล้ายกัน

นี่ไม่ใช่ปัญหาเล็กน้อย ลองนึกภาพคุณใส่รูปสุนัขสีเทา โดยหวังว่าจะได้รูปสุนัขตัวอื่นกลับมา แต่คุณจะได้รูปของสิ่งสีเทาอื่นๆ แทน คุณต้องการให้เครื่องมือค้นหาของคุณมีแนวคิดของมนุษย์เกี่ยวกับความหมายของคำว่า "คล้ายกัน" โดยการทำความเข้าใจสิ่งที่ปรากฎในภาพ

คุณสามารถทำสิ่งนี้กับ Jina ได้ทันที

เปิดเทอร์มินัลบรรทัดคำสั่งแล้วรัน:

jina now start

เช่นเดียวกับเมื่อก่อน คุณจะเห็นสิ่งนี้ในเทอร์มินัลบรรทัดคำสั่งของคุณ:

เลื่อนเคอร์เซอร์ไปที่ตัวเลือกที่สามimage to image search— แล้วกด Enter

จากนั้นทำตามขั้นตอนเดิมทั้งหมดสำหรับการค้นหาข้อความเป็นรูปภาพ เมื่อ Jina Cloud สร้างดัชนีเสร็จแล้ว คุณสามารถเข้าถึงดัชนีของคุณผ่าน URL:

https://nowrun.jina.ai/?host=grpcs://nowapi-<ID_STRING>.wolf.jina.ai&input_modality=image&output_modality=image&data=custom?utm_source=blog-trademark

เพียงแทนที่สตริง ID ของคุณด้วย <ID_STRING> ใน URL ด้านบน

สำหรับกรณีการใช้งานนี้ เราได้เตรียม "ดัชนีที่สร้างไว้ล่วงหน้าของข้อมูลเครื่องหมายการค้าที่คุณสามารถใช้งานได้ทันที"

คุณสามารถลากรูปภาพมาไว้ในหน้านี้ หรือเรียกดูไฟล์ของคุณเพื่อค้นหารูปภาพ จากนั้นค้นหารายการที่ตรงกันมากที่สุดในฐานข้อมูลเครื่องหมายการค้า

ตัวอย่างเช่น การสืบค้นโดยใช้ "โลโก้ His Master's Voice" ในรูปถ่ายประมาณปี 1890 (หรือที่รู้จักกันในชื่อ "Nipper" จากชื่อสุนัข):

Jina NOW สามารถจดจำวัตถุในรูปภาพได้ แม้ว่าจะวาดหรือจากภาพถ่ายเก่าๆ และให้การจับคู่ของมนุษย์ที่เป็นธรรมชาติมากขึ้นโดยอิงตามผลการค้นหาจากการจดจำวัตถุ สิ่งนี้มีประโยชน์มากในการระบุการจับคู่ที่ใกล้เคียงกันอย่างมีสไตล์ ตัวอย่างเช่น การล้อเลียนโลโก้สตาร์บัคส์อันโด่งดัง (พบใน Pinterest):

แม้ว่าจะมีความแตกต่างอย่างมากในสิ่งประดิษฐ์ที่มองเห็นได้ระหว่างโลโก้ล้อเลียนและเวอร์ชันของต้นฉบับที่จัดเก็บไว้ในบันทึกของสำนักงานเครื่องหมายการค้าในเดือนสิงหาคม 2022 แต่ Jina NOW ก็ยังสามารถค้นหารายการที่ตรงกันได้

ลองด้วยตัวคุณเองและเข้าร่วมชุมชน Jina

ตอนนี้คุณได้เห็นพลังของเฟรมเวิร์กการค้นหาแบบนิวรัลของ Jina และความง่ายในการสร้างดัชนีและการแสดงผลการค้นหาแล้ว คุณสามารถทดลองกับข้อมูลของคุณเองและตัดสินใจว่า Jina NOW สามารถเพิ่มมูลค่าให้กับธุรกิจของคุณได้หรือไม่

เรายินดีที่จะรับฟังจากคุณและพูดคุยเกี่ยวกับกรณีการใช้งานของคุณ คุณสามารถเข้าร่วม ชุมชนผู้ใช้ Slack ที่เติบโตอย่างรวดเร็วของเรา

เรียนรู้เพิ่มเติม

ต้องการเจาะลึกเข้าไปในระบบนิเวศของ Jina ให้มากขึ้นหรือไม่? นี่คือแหล่งข้อมูลบางส่วน: